Mira al robot de ping pong de Google lograr un rally de 340 hits

Mira al robot de ping pong de Google lograr un rally de 340 hits

Como si no fuera suficiente tener IA curtiendo la piel de la humanidad (en sentido figurado por ahora) en todos los juegos de mesa existentes, Google AI también tiene uno trabajando para destruirnos a todos en el ping pong. Por ahora enfatizan que es “cooperativo”, pero a medida que estas cosas mejoren, pronto adquirirá profesionales.

El proyecto, llamado i-Sim2Real, no se trata solo de ping pong, sino de construir un sistema robótico que pueda funcionar con y alrededor del comportamiento humano acelerado y relativamente impredecible. El ping pong, también conocido como tenis de mesa, tiene la ventaja de estar bastante restringido (a diferencia de jugar baloncesto o cricket) y un equilibrio de complejidad y simplicidad.

“Sim2Real” es una forma de describir un proceso de creación de IA en el que se le enseña a un modelo de aprendizaje automático qué hacer en un entorno virtual o simulación, y luego aplica ese conocimiento en el mundo real. Es necesario cuando podría llevar años de prueba y error llegar a un modelo que funcione; hacerlo en un simulador permite años de entrenamiento en tiempo real en unos pocos minutos u horas.

Pero no siempre es posible hacer algo en un sim; por ejemplo, ¿qué pasa si un robot necesita interactuar con un humano? Eso no es tan fácil de simular, por lo que necesita datos del mundo real para comenzar. Terminas con un problema del huevo y la gallina: no tienes los datos humanos, porque los necesitarías para hacer que el robot interactuara con el humano y generara esos datos en primer lugar.

Los investigadores de Google escapó de esta trampa comenzando simple y haciendo un ciclo de retroalimentación:

[i-Sim2Real] utiliza un modelo simple de comportamiento humano como punto de partida aproximado y alterna entre el entrenamiento en simulación y la implementación en el mundo real. En cada iteración, se refinan tanto el modelo de comportamiento humano como la política.

Está bien comenzar con una mala aproximación del comportamiento humano, porque el robot apenas está comenzando a aprender. Se recopilan más datos humanos reales con cada juego, lo que mejora la precisión y permite que la IA aprenda más.

El enfoque fue lo suficientemente exitoso como para que el robot de tenis de mesa del equipo pudiera realizar un rally fuerte de 340. Échale un vistazo:

También es capaz de devolver la pelota a diferentes regiones, no exactamente con precisión matemática, pero lo suficientemente buena como para comenzar a ejecutar una estrategia.

El equipo también probó un enfoque diferente para un comportamiento más orientado a la meta, como devolver el balón a un lugar muy específico desde una variedad de posiciones. Una vez más, no se trata de crear la máquina de ping pong definitiva (aunque, sin embargo, es una consecuencia probable), sino de encontrar formas de entrenar de manera eficiente con y para las interacciones humanas sin hacer que las personas repitan la misma acción miles de veces.

Puede obtener más información sobre las técnicas que empleó el equipo de Google en el video resumen a continuación:


Source link