Cómo este robot se enseñó a caminar en unas pocas horas

Cómo este robot se enseñó a caminar en unas pocas horas

  • Los investigadores afiliados a Google Robotics han logrado que un robot se enseñe a sí mismo sin depender de ensayos de simulación.
  • Utilizando el aprendizaje de refuerzo profundo, un tipo de aprendizaje automático que se basa en los conceptos utilizados en psicología, los científicos podrían evitar programar mucho cada comando relacionado con la marcha, así como evitar las pruebas de simulación.
  • Si bien el campo de la locomoción robótica autodidacta aún es incipiente, este trabajo proporciona evidencia suficiente de que funciona. Los resultados del equipo fueron publicados en arXiv.

    Caminar es difícil, y lo que es difícil para los humanos es igualmente confuso para los robots. Pero con la ayuda del aprendizaje automático, un robot aprendió a caminar en unas pocas horas, unos 12 meses más rápido que el humano promedio. No está mal.

    Por lo general, un robotista debe codificar cada paso robótico o construir un mundo simulado en el que el robot pueda completar su entrenamiento de prueba y error. Pero ambos métodos llevan mucho tiempo, por lo que los investigadores afiliados a Google utilizaron el aprendizaje por refuerzo para que el robot pudiera aprender a caminar en el mundo real. Esta rama del aprendizaje automático utiliza software para recopilar más información sobre su entorno mediante la repetición continua de ensayos y la recompensa de intentos exitosos.

    La simulación sigue siendo un ingrediente importante del aprendizaje por refuerzo, pero los investigadores debían llevar ese tipo de pruebas al siguiente nivel. Esto significa que los investigadores dejan que su robot Minotauro deambule por un entorno físico antes de deambular por los diferentes terrenos del ensayo, como terreno plano, un colchón suave y un felpudo con grietas geométricas.

    Sehoon Ha, profesor asistente del Instituto de Tecnología de Georgia (parte de Google Robotics) y autor principal del estudio, dice que es difícil construir simulaciones rápidas y precisas para que un robot las explore. Puede modelar cada grieta individual en el asfalto, pero eso no ayuda mucho cuando el robot camina por un camino desconocido en el mundo real.

    “Por esta razón, nuestro objetivo es desarrollar un profundo [reinforcement learning] sistema que puede aprender a caminar de forma autónoma en el mundo real “, escribió en el periódico.

    Pero hay un problema de ingeniería desafiante cuando se trata de enseñar a un robot a caminar: la cosa se va a caer … mucho. Una forma en que Ha y los otros investigadores pudieron garantizar tanto el aprendizaje automatizado en el mundo real como la seguridad del robot fue habilitar múltiples tipos de aprendizaje a la vez. Cuando un robot aprende a caminar hacia adelante, puede alcanzar el perímetro del espacio de entrenamiento, por lo que le permite al robot practicar simultáneamente el movimiento hacia adelante y hacia atrás para que pueda reiniciarse de manera efectiva.

    Su metodología fue tan exitosa que el robot no requirió reinicios manuales durante sus horas de entrenamiento. A modo de comparación, el robot anterior de Ha en diciembre de 2018 requirió 100 reinicios manuales.

    imagen

    El robot minotauro aprende a caminar en varios terrenos, como terreno plano (arriba), un colchón blando (centro) y un felpudo con grietas (abajo).

    Google / arXiv

    El otro desafío era asegurarse de que el robot De Verdad aprendió a caminar solo, lo que significa que no hay intervención humana alguna. El único código rígido que utilizó el equipo fue un comando que le decía al robot que se pusiera de pie después de una caída, pero esperan eventualmente automatizar también esta parte del proceso de aprendizaje.

    Eliminar las pruebas de codificación y simulación que requieren mucho tiempo ayuda a los robots a pasar más tiempo viendo cómo interactúa lo real con su entorno. Con suerte, impulsará aplicaciones prácticas para robots andantes, como aplicaciones militares de búsqueda y rescate donde los entornos desconocidos y a menudo hostiles son comunes.

    Fuente: MIT Tech Review


Source link