Sin reglas, no hay problema: MuZero de DeepMind domina los juegos mientras aprende a jugarlos

Dic 23, 2020

—

por

DeepMind se ha convertido en una misión para demostrar que no solo una IA puede llegar a ser realmente competente en un juego, sino que puede hacerlo sin siquiera que le digan las reglas. Su nuevo agente de IA, llamado MuZero, logra esto no solo con juegos visualmente simples con estrategias complejas, como Go, Chess y Shogi, sino con juegos Atari visualmente complejos.

El éxito de las IA anteriores de DeepMind se debió, al menos en parte, a una navegación muy eficiente de los inmensos árboles de decisión que representan las posibles acciones en un juego. En Go o Chess, estos árboles se rigen por reglas muy específicas, como dónde se pueden mover las piezas, qué sucede cuando esta pieza hace eso, etc.

La IA que venció a los campeones mundiales en Go, AlphaGo, conocía estas reglas y las tenía en cuenta (o quizás en la RAM) mientras estudiaba juegos entre y contra jugadores humanos, formando un conjunto de mejores prácticas y estrategias. La secuela, AlphaGo Zero, hizo esto sin datos humanos, jugando solo contra sí misma. AlphaZero hizo lo mismo con Go, Chess y Shogi en 2018, creando un solo modelo de IA que podía jugar todos estos juegos de manera competente.

Pero en todos estos casos, a la IA se le presentó un conjunto de reglas conocidas e inmutables para los juegos, creando un marco alrededor del cual podría construir sus estrategias. Piénselo: si le dicen que un peón puede convertirse en reina, lo planifica desde el principio, pero si tiene que averiguarlo, puede desarrollar estrategias completamente diferentes.

Este útil diagrama muestra lo que han logrado diferentes modelos con diferentes conocimientos iniciales. Imagen: DeepMind

Como explica la empresa en un entrada en el blog sobre su nueva investigación, si se les dice a las IA las reglas con anticipación, “esto hace que sea difícil aplicarlas a problemas complicados del mundo real que suelen ser complejos y difíciles de resumir en reglas simples”.

El último avance de la compañía, entonces, es MuZero, que juega no solo a los juegos antes mencionados sino a una variedad de juegos de Atari, y lo hace sin contar con un libro de reglas en absoluto. El modelo final aprendió a jugar todos estos juegos no solo experimentando por sí solo (sin datos humanos), sino sin que le dijeran ni siquiera las reglas más básicas.

En lugar de usar las reglas para encontrar el mejor escenario posible (porque no puede), MuZero aprende a tener en cuenta todos los aspectos del entorno del juego, observando por sí mismo si es importante o no. A lo largo de millones de juegos, aprende no solo las reglas, sino también el valor general de un puesto, las políticas generales para salir adelante y una forma de evaluar sus propias acciones en retrospectiva.

Esta última capacidad le ayuda a aprender de sus propios errores, rebobinando y rehaciendo juegos para probar diferentes enfoques que perfeccionen aún más la posición y los valores políticos.

Quizás recuerdes Agent57, otra creación de DeepMind que se destacó en un conjunto de 57 juegos de Atari. MuZero toma lo mejor de esa IA y lo combina con lo mejor de AlphaZero. MuZero se diferencia del primero en que no modela todo el entorno del juego, sino que se centra en las partes que afectan su toma de decisiones, y del segundo en que basa su modelo de las reglas puramente en su propia experimentación y conocimiento de primera mano.

Comprender el mundo del juego le permite a MuZero planificar sus acciones de manera efectiva incluso cuando el mundo del juego, como muchos juegos de Atari, es parcialmente aleatorio y visualmente complejo. Eso lo acerca a una IA que puede interactuar de manera segura e inteligente con el mundo real, aprendiendo a comprender el mundo que lo rodea sin la necesidad de que le digan todos los detalles (aunque es probable que algunos, como “no aplastes a los humanos”, será grabado en piedra). Como uno de los investigadores le dijo a la BBC, el equipo ya está experimentando para ver cómo MuZero podría mejorar la compresión de video, obviamente un problema muy diferente al de la Sra. Pac-Man.

Los detalles de MuZero fueron publicado hoy en la revista Nature.

Source link