Inteligentes IA que buscan y esconden aprenden a usar herramientas y romper las reglas

Inteligentes IA que buscan y esconden aprenden a usar herramientas y romper las reglas

Las últimas investigaciones de OpenAI puso a sus agentes de aprendizaje automático en un simple juego de escondite, donde persiguieron una carrera armamentista de ingenio, usando objetos de formas inesperadas para lograr su objetivo de ver o ser vistos. Este tipo de IA autodidacta también podría resultar útil en el mundo real.

El estudio tenía la intención de analizar, y lo hizo con éxito, la posibilidad de que los agentes de aprendizaje automático aprendan técnicas sofisticadas y relevantes para el mundo real sin ninguna interferencia de las sugerencias de los investigadores.

Tareas como identificar objetos en fotografías o inventar rostros humanos plausibles son difíciles y útiles, pero en realidad no reflejan las acciones que uno podría realizar en el mundo real. Son altamente intelectuales, podría decirse, y como consecuencia pueden ser llevados a un alto nivel de efectividad sin siquiera dejar la computadora.

Considerando que intentar entrenar una IA para usar un brazo robótico para agarrar una taza y ponerla en un platillo es mucho más difícil de lo que uno podría imaginar (y solo se ha logrado en circunstancias muy específicas); la complejidad del mundo físico real hace que el aprendizaje de las tareas sea puramente intelectual y basado en computadoras sea prácticamente imposible.

Al mismo tiempo, hay tareas intermedias que no reflejan necesariamente el mundo real por completo, pero que aún pueden ser relevantes para él. Una simple podría ser cómo cambiar la cara de un robot cuando se le presentan múltiples objetos o personas relevantes. No necesitas mil intentos físicos para saber que debe rotar solo o la cámara para que pueda ver ambos, o cambiar entre ellos, o lo que sea.

El desafío de las escondidas de OpenAI para sus agentes de ML bebés fue así: un entorno de juego con reglas simples (llamado Polyworld) que, sin embargo, usa física y entradas adyacentes al mundo real. Si las IA pueden aprender a navegar por esta realidad simplificada, tal vez puedan transferir esas habilidades, con algunas modificaciones, a la realidad completa.

Ese es el pensamiento detrás del experimento, de todos modos, pero es lo suficientemente entretenido por sí solo. El juego enfrenta a dos equipos entre sí en una pequeña arena 3D poblada con algunas paredes y objetos generados aleatoriamente. En él se generan varios agentes y los “ocultadores” tienen unos segundos para familiarizarse con el entorno y esconderse. También pueden interactuar con los objetos, empujándolos y bloqueándolos en su lugar. Una vez que el “buscador” mira hacia arriba, tiene una cierta cantidad de tiempo para detectar a los que se esconden.

Todo lo que se informó al programa de aprendizaje automático fueron los sentidos básicos (cada agente tiene una visión del mundo y una especie de “lidar” para decirles las posiciones de los objetos cercanos) y el conocimiento de que pueden mover objetos. Pero más allá de eso, simplemente se les dio un punto en el que tuvieron éxito en su trabajo, ya sea buscando o escondiéndose, esa es su motivación.

De estos comienzos básicos surgieron resultados maravillosamente interesantes. Al principio, los equipos se movían esencialmente al azar. Pero después de millones de juegos, los ocultadores descubrieron que al moverse de cierta manera, huyendo “crudamente”, podían aumentar sus puntos con más frecuencia. Y así comenzó la carrera armamentista.

Dado que los escondidos huían, los buscadores comenzaron a desarrollar comportamientos de persecución más estructurados. Pero luego vinieron las herramientas.

Hiders descubrió que podían empujar y jalar objetos en el campo y comenzaron a construir fuertes con ellos.

Los buscadores respondieron usando rampas encontradas en el campo para ascender sobre los objetos y romper los fuertes.

Los escondidos comenzaron a buscar rampas mientras los buscadores aún contaban y las robaron o las bloquearon en su lugar (un agente del equipo opuesto no puede deshacer el bloqueo). Curiosamente, esto implicó una cierta división del trabajo, porque a menudo no había suficiente tiempo para que ambos escondidos salieran en busca de rampas; uno tuvo que preparar el fuerte mientras el otro patrullaba la rampa.

El equipo de OpenAI pensó que tal vez ese era el final, pero los buscadores aprendieron a explotar una característica no deseada del mundo del juego. Descubrieron que podían “empujar” una caja mientras viajaban encima de ella, lo que significa que podían ponerla cerca de una rampa, subirse a ella, luego “navegar” por todo el campo y encontrar a esos traviesos escondites.

Por supuesto, los escondites respondieron bloqueando todos los objetos que no estaban usando para construir su fuerte, y ese parece ser el final de la línea en lo que respecta a la estrategia en este juego.

¿Entonces cuál es el punto? Como explican los autores del artículo, así es como salimos.

La gran cantidad de complejidad y diversidad en la Tierra evolucionó debido a la coevolución y la competencia entre organismos, dirigida por la selección natural. Cuando surge una nueva estrategia o mutación exitosa, cambia la distribución implícita de tareas que los agentes vecinos deben resolver y crea una nueva presión para la adaptación. Estas carreras armamentísticas evolutivas crean autocurrículums implícitos en los que los agentes en competencia crean continuamente nuevas tareas para los demás.

Inducir currículos automáticos en entornos abiertos y con base física podría eventualmente permitir que los agentes adquieran un número ilimitado de habilidades relevantes para los humanos.

En otras palabras, hacer que los modelos de IA compitan sin supervisión puede ser una forma mucho mejor de desarrollar habilidades útiles y sólidas que dejar que se muevan solos, acumulando un número abstracto como el porcentaje del entorno explorado o similar.

Cada vez es más difícil o incluso imposible para los humanos dirigir todos los aspectos de las habilidades de una IA al parametrizarla y controlar las interacciones que tiene con el entorno. Para tareas complejas como un robot que navega en un entorno lleno de gente, hay tantos factores que hacer que los humanos diseñen comportamientos nunca producirá el tipo de sofisticación que es necesario para que estos agentes ocupen su lugar en la vida cotidiana.

Pero pueden enseñarse unos a otros, como hemos visto aquí y en GAN, donde un par de IA en duelo trabajan para derrotar al otro en la creación o detección de medios realistas. Los investigadores de OpenAI postulan que los “autocurrículos de múltiples agentes”, o agentes de autoaprendizaje, son el camino a seguir en muchas circunstancias en las que otros métodos son demasiado lentos o estructurados. Concluyen:

“Estos resultados inspiran la confianza de que, en un entorno más abierto y diverso, la dinámica de múltiples agentes podría conducir a un comportamiento extremadamente complejo y relevante para los humanos”.

Algunas partes de la investigación se han publicado como fuente abierta. Puede lea el documento completo que describe el experimento aquí.


Source link