El agente de inteligencia artificial Agent57 de DeepMind puede superar a los jugadores humanos en un conjunto de 57 juegos de Atari

El agente de inteligencia artificial Agent57 de DeepMind puede superar a los jugadores humanos en un conjunto de 57 juegos de Atari

El desarrollo de los agentes de inteligencia artificial tiende a medirse con frecuencia por su desempeño en los juegos, pero hay una buena razón para ello: los juegos tienden a ofrecer una amplia curva de competencia, en términos de ser relativamente simples de comprender los conceptos básicos, pero difíciles de dominar, y casi siempre tienen un sistema de puntuación incorporado para evaluar el desempeño. Los agentes de DeepMind han abordado el juego de mesa Go, así como el videojuego de estrategia en tiempo real StarCraft. Pero la hazaña más reciente de la compañía Alphabet es Agent57, alagente de ganancias que puede vencer al humano promedio en cada uno de los 57 juegos de Atari con una amplia gama de dificultad, características y estilos de juego.

Ser mejor que los humanos en 57 juegos de Atari puede parecer un punto de referencia extraño para medir el rendimiento de un agente de aprendizaje profundo, pero en realidad es un estándar que se remonta a 2012, con una selección de clásicos de Atari que incluyen Pitfall, Solaris , La venganza de Montezuma y muchos otros. En conjunto, estos juegos representan una amplia gama de niveles de dificultad, además de requerir una variedad de estrategias diferentes para lograr el éxito.

Ese es un gran tipo de desafío para crear un agente de aprendizaje profundo porque el objetivo no es construir algo que pueda determinar una estrategia efectiva que maximice sus posibilidades de éxito cada vez que juega un juego; en cambio, la razón por la que los investigadores construyen estos agentes y los establecen a estas tareas es desarrollar algo que pueda aprender a través de escenarios y condiciones múltiples y cambiantes, con el objetivo a largo plazo de construir un agente de aprendizaje que se acerque a la IA general, o una IA que sea más humana en términos de ser capaz de aplicar su inteligencia a cualquier problema que se le presente, incluidos los desafíos que nunca antes había enfrentado.

El Agent57 de DeepMind es notable porque se desempeña mejor que los jugadores humanos en cada uno de los 57 juegos del conjunto de Atari57 (los agentes anteriores han podido ser mejores que los jugadores humanos en promedio), pero eso se debe a que fueron extremadamente buenos en algunos de los juegos más simples que Básicamente, solo funcionaba a través de un ciclo simple de acción y recompensa, pero era terrible en los juegos que requerían un juego más avanzado, incluida la exploración y la memoria a largo plazo, como Montezuma’s Revenge.

El equipo de DeepMind abordó esto mediante la creación de un agente distribuido con diferentes computadoras que abordan diferentes aspectos del problema, con algunos sintonizados para centrarse en recompensas novedosas (encontrar cosas que no han encontrado antes), con horizontes de tiempo a corto y largo plazo para cuando el valor de la novedad se restablece. Otros buscaron exploits más simples, averiguando qué patrón repetido proporcionaba la mayor recompensa, y luego todos los resultados son combinados y administrados por un agente equipado con un metacontrolador que le permite sopesar los costos y beneficios de diferentes enfoques en función de qué juego que encuentra.

Al final, Agent57 es un logro, pero el equipo dice que puede mejorarse de diferentes maneras. En primer lugar, su ejecución es increíblemente costosa desde el punto de vista computacional, por lo que buscarán simplificarlo. En segundo lugar, en realidad no es tan bueno en algunos de los juegos más simples como algunos agentes más simples, aunque sobresale en los 5 mejores juegos en términos de desafío para los agentes inteligentes anteriores. El equipo dice que tiene ideas sobre cómo hacerlo aún mejor en los juegos más simples en los que otros agentes menos sofisticados son aún mejores.


Source link