Enseñar a los robots a través del refuerzo positivo

Enseñar a los robots a través del refuerzo positivo

Es probable que no haya un instituto de profesores de robótica en el mundo que busque activamente el aprendizaje robótico. El campo, después de todo, tiene la clave para desbloquear mucho potencial para la industria. Una de las cosas que lo hace tan notable es la miríada de enfoques diferentes que muchos investigadores están tomando para descubrir los secretos de ayudar a los robots a aprender esencialmente desde cero.

Un nuevo artículo de la Universidad Johns Hopkins luciendo el ciertamente encantador nombre “Good Robot” explora el potencial del aprendizaje a través del refuerzo positivo. El título deriva de una anécdota del autor Andrew Hundt sobre enseñarle a su perro a no perseguir ardillas. No entraré en eso aquí; en su lugar, puede ver este video:

Pero el núcleo de la idea es ofrecer al robot algún tipo de incentivo cuando hace algo bien, en lugar de un desincentivo cuando hace algo mal. Para los robots, los incentivos vienen en forma de un sistema de puntuación, esencialmente un tipo de gamificación que recompensa una cantidad de puntos en función de la ejecución correcta de una tarea.

El candidato a doctorado dice que el método pudo reducir significativamente el tiempo de entrenamiento de una tarea. “El robot quiere la puntuación más alta”, dijo Hundt en un comunicado relacionado con la investigación. “Aprende rápidamente el comportamiento correcto para obtener la mejor recompensa. De hecho, solía tomar un mes de práctica para que el robot lograra una precisión del 100 %. Pudimos hacerlo en dos días”.

Las tareas aún son bastante elementales, incluido el apilamiento de ladrillos y la navegación a través de un videojuego, pero existe la esperanza de que los futuros robots puedan trabajar en tareas más complejas y útiles del mundo real.


Source link