Google hace que los robots sean más inteligentes enseñándoles sus limitaciones

Si ha utilizado un asistente de voz inteligente como Alexa, Siri y como se llame el asistente inteligente de Google, probablemente habrá notado que la tecnología se vuelve más inteligente cada día. Google puede esperar por ti, Siri puede hablar con una voz de género neutral y Alexa puede leerte cuentos antes de dormir con la voz de tu abuela muerta. La robótica también está evolucionando a pasos agigantados, como exploramos en nuestro evento de Robótica el mes pasado. La brecha entre los dos (comandos de voz y robótica autónoma) ha sido enorme por varias razones. La semana pasada, fuimos a los laboratorios de robótica de Google en Mountain View para ver cómo cambiará eso en el futuro cercano.

Enseñar a los robots qué hacer para tareas repetitivas en espacios controlados donde no se permiten humanos no es fácil, pero es más o menos un problema resuelto. Recorrido reciente por la fábrica de Rivian fue un gran recordatorio de eso, pero el uso de la robótica industrial está en todas partes en la fabricación.

Los robots de propósito general que pueden resolver muchas tareas diferentes basadas en comandos de voz en espacios donde también existen humanos, son mucho más difíciles. Usted podría decir: “Pero, ¿qué pasa con Roomba?”, Pero la aspiradora automática favorita de todos generalmente está programada para evitar tocar cosas que no sean el piso y lo que sea que esté en el piso, para disgusto de algunos propietarios.

El tenis de mesa es un juego en el que el robot puede autodeterminar fácilmente si una tarea fue exitosa y aprender de sus errores. Aquí, uno de los investigadores de robótica de Google se toma un descanso y le muestra al robot qué es qué. Créditos de imagen: Haje Kamps (se abre en una ventana nueva) / TechCrunch(Se abre en una nueva ventana)

“Quizás te preguntes por qué ping-pong. Uno de los grandes desafíos de la robótica actual es esta intersección de ser rápido, preciso y adaptable. Puedes ser rápido y no adaptarte en absoluto; eso no es un problema. Eso está bien en un entorno industrial. Pero ser rápido, adaptable y preciso es un gran desafío. El ping-pong es un microcosmos muy agradable del problema. Requiere precisión y velocidad. Puedes aprender de la gente que juega: es una habilidad que la gente desarrolla practicando”, me dijo Vincent Vanhoucke, científico distinguido y jefe de robótica en Google Research. “No es una habilidad en la que puedas leer las reglas y convertirte en un campeón de la noche a la mañana. Realmente tienes que practicarlo”.

La velocidad y la precisión son una cosa, pero la nuez que Google realmente está tratando de descifrar en sus laboratorios robóticos es la intersección entre el lenguaje humano y la robótica. Está dando algunos saltos impresionantes en el nivel de comprensión robótica del lenguaje natural que un humano podría usar. “Cuando tengas un minuto, ¿podrías traerme un trago del mostrador?” es una solicitud bastante directa que podrías hacerle a un humano. Sin embargo, para una máquina, esa declaración envuelve mucho conocimiento y comprensión en una pregunta aparentemente única. Vamos a desglosarlo: “Cuando tengas un minuto” podría no significar nada en absoluto, solo como una forma de hablar, o podría ser una solicitud real para terminar lo que está haciendo el robot. Si un robot está siendo demasiado literal, la respuesta “correcta” a “¿podría traerme un trago?” podría ser simplemente que el robot diga “sí”. Puede, y confirma que es capaz de tomar un trago. Pero, como usuario, no le pidió explícitamente al robot que lo hiciera. Y, si estamos siendo más pedantes, no le dijiste explícitamente al robot que te trajera la bebida.

Estos son algunos de los problemas que Google está abordando con su sistema de procesamiento de lenguaje natural; el modelo de lenguaje Pathways, o Palmera entre amigos: procesar y absorber con precisión lo que un humano realmente quiere, en lugar de hacer literalmente lo que dice.

El próximo desafío es reconocer lo que un robot es realmente capaz de hacer. Un robot puede entender perfectamente bien cuando le pides que tome una botella de limpiador de la parte superior de la nevera, donde está guardada de forma segura fuera del alcance de los niños. El problema es que el robot no puede llegar tan alto. El gran avance es lo que Google llama “asequibilidades”: qué puede hacer realmente el robot con un grado razonable de éxito. Esto puede incluir tareas sencillas (“avanzar un metro”), tareas un poco más avanzadas (“Ve a buscar una lata de Coca-Cola en la cocina”), hasta acciones complejas de varios pasos que requieren que el robot muestre bastante comprensión. de sus propias habilidades y del mundo que lo rodea. (“Ugh, derramé mi lata de Coca-Cola en el piso. ¿Podrías limpiarla y traerme una bebida saludable?”).

El enfoque de Google utiliza el conocimiento contenido en los modelos de lenguaje (“Decir”) para determinar y puntuar acciones que son útiles para instrucciones de alto nivel. También utiliza una función de disponibilidad (“Can”) que permite la conexión a tierra en el mundo real y determina qué acciones son posibles de ejecutar en un entorno determinado. Usando el modelo de lenguaje PaLM, Google lo llama PaLM-SayCan.

El laboratorio de robótica de Google está utilizando varios de estos robots de Robots cotidianos. Estos muchachos están tomando un R&R (descanso y recarga) bien merecido, e incluso han aprendido a enchufarse para recargarse. Créditos de imagen: Haje Kamps (se abre en una ventana nueva) / TechCrunch(Se abre en una nueva ventana)

Para resolver el comando anterior más avanzado, el robot debe dividirlo en varios pasos individuales. Un ejemplo de eso podría ser:

Ven al altavoz. Mira el piso, encuentra el derrame, recuerda dónde está. Revisa los cajones, armarios y encimeras de la cocina en busca de un trapeador, una esponja o una toalla de papel. Una vez que encuentre una herramienta de limpieza (hay una esponja en el cajón), recójala. Cierra el cajón. Mover al derrame. Limpiar el derrame, vigilando que la esponja pueda absorber todo el líquido. Si no, ve a escurrirlo en el fregadero y vuelve. Una vez que el derrame esté limpio, escurra la esponja una vez más. Abra el grifo, enjuague la esponja, cierre el grifo, escurra la esponja por última vez. Abra el cajón, guarde la esponja, cierre el cajón. Identifique qué bebidas hay en la cocina y de alguna manera determine qué bebidas son “más saludables” que una Coca-Cola. Encuentra una botella de agua en el refrigerador, recógela, llévasela a la persona que la pidió, que puede haberse movido desde que hizo la pregunta, porque eres un pequeño robot lento que tuvo que rodar de un lado a otro. al fregadero 14 veces, porque en lugar de usar toallas de papel, pensó que sería una idea brillante usar una pequeña esponja de cocina para secar 11 onzas de líquido.

De todos modos, me estoy burlando aquí, pero entiendes la esencia; incluso las instrucciones que suenan relativamente simples pueden, de hecho, incluir una gran cantidad de pasos, lógica y decisiones a lo largo del camino. ¿Encuentra la bebida más saludable que existe o el objetivo es obtener algo que sea más saludable que Coca-Cola? ¿Tendría sentido tomar primero la bebida y luego limpiar el desorden, para que el humano pueda saciar su sed mientras tú resuelves el resto de la tarea?

Esta captura de pantalla muestra cómo el robot puede evaluar una consulta y descubrir qué debe hacer en cada paso del camino. En este caso, el robot determinó que debería encontrar una esponja y que tiene un alto grado de éxito en encontrar, identificar y manipular esponjas. También muestra que este robot en particular es realmente bueno para “ir a los cajones”, pero también concluye que eso no sería tan útil en este caso. Créditos de imagen: Google

Lo crucial aquí es enseñar a los robots lo que pueden y no pueden hacer, y lo que tiene sentido en diversas situaciones. Recorriendo el laboratorio de robótica de Google, vi unos 30 robots, ambos de Robots cotidianos y más máquinas especialmente diseñadas, jugar tenis de mesa, atrapar pelotas de lacrosse y aprender a apilar bloques, abrir puertas de refrigeradores y “ser educados” mientras operan en el mismo espacio que los humanos.

¡Buena atrapada! Créditos de imagen: Haje Kamps (se abre en una ventana nueva) / TechCrunch

El desafío interesante al que se enfrenta la robótica es que los modelos de lenguaje no están inherentemente basados en el mundo físico. Están capacitados en enormes bibliotecas de texto, pero las bibliotecas de texto no interactúan con sus entornos, ni tienen que preocuparse demasiado por causar problemas. Es un poco divertido cuando le pides a Google que te dirija a la cafetería más cercana, y Maps accidentalmente traza una caminata de 45 días y un nado de tres días a través de un lago. En el mundo real, los errores tontos tienen consecuencias reales.

Por ejemplo, cuando se le solicite “Derramé mi bebida, ¿puede ayudarme?” el modelo de lenguaje GPT-3 responde con “Podrías intentar usar una aspiradora”. Tiene sentido: para algunos líos, una aspiradora es una buena opción, y es lógico que un modelo de lenguaje asocie una aspiradora con, bueno, la limpieza. Si el robot realmente hiciera eso, probablemente fallaría: las aspiradoras no son buenas para las bebidas derramadas, y el agua y los dispositivos electrónicos no se mezclan, por lo que, en el mejor de los casos, podría terminar con una aspiradora rota o un electrodoméstico incendiado en el peor de los casos.

Los robots habilitados para PaLM-SayCan de Google se colocan en un entorno de cocina y están capacitados para mejorar en varios aspectos de ser útiles en una cocina. Los robots, cuando se les da una instrucción, intentan tomar una determinación. “¿Cuál es la probabilidad de que tenga éxito en lo que estoy a punto de intentar?” y “qué tan útil es probable que sea esto”. En algún lugar en el espacio entre esas dos consideraciones, los robots se están volviendo significativamente más inteligentes cada día.

El regreso triunfal del robot recoge esponjas. Créditos de imagen: Haje Kamps (se abre en una ventana nueva) / TechCrunch

Las prestaciones, o la capacidad de hacer algo, no son binarias. Equilibrar tres pelotas de golf una encima de la otra es muy difícil, pero no imposible. Abrir un cajón es casi imposible para un robot al que no se le ha mostrado cómo funcionan los cajones, pero una vez que están entrenados y pueden experimentar con la mejor manera de abrir un cajón, pueden obtener un grado cada vez mayor de confianza en un tarea. Un robot no entrenado, sugiere Google, podría no ser capaz de tomar una bolsa de papas fritas de un cajón. Pero dale algunas instrucciones y unos días para practicar, y las posibilidades de éxito aumentan significativamente.

Por supuesto, todos estos datos de entrenamiento se puntúan a medida que el robot prueba cosas. De vez en cuando, un robot puede “resolver” una tarea de una manera sorprendente, pero en realidad puede ser “más fácil” hacerlo de esa manera para un robot.

Al divorciar los modelos de lenguaje de las posibilidades, significa que el robot puede “entender” los comandos en varios idiomas diferentes. El equipo lo demostró también en la cocina, cuando el jefe de robótica Vincent Vanhoucke le pidió al robot una lata de Coca-Cola en francés; “Obtuvimos las habilidades lingüísticas de forma gratuita”, dijo el equipo, destacando cómo las redes neuronales que se utilizan para entrenar a los robots son lo suficientemente flexibles como para abrir nuevas puertas (literal y figurativamente) para la accesibilidad y el acceso universal.

La mayoría de los robots que tocan, abren, mueven y limpian cosas generalmente no están invitados a operar tan cerca de los humanos. Se nos animó a mantener la distancia, pero los investigadores parecían sentirse muy a gusto con los robots operando de forma autónoma a centímetros de sus cuerpos humanos no blindados. Créditos de imagen: Haje Kamps (se abre en una nueva ventana) / TechCrunch

Ninguno de los robots o tecnologías están actualmente disponibles, o necesariamente destinados, para productos comerciales.

“En este momento, es enteramente investigación. Como puede ver por el nivel de habilidad que tenemos hoy, no está realmente listo para implementarse en un entorno comercial. Somos equipos de investigación y nos encanta trabajar en cosas que no funcionan”, bromea Vanhoucke. “Esa es la definición de investigación de alguna manera, y vamos a seguir presionando. Nos gusta trabajar en cosas que no necesitan escalar porque es una forma de informar cómo escalan las cosas con más datos y más habilidades informáticas. Puedes ver una tendencia de hacia dónde podrían ir las cosas en el futuro”.

Al laboratorio de robótica de Google le llevará un tiempo averiguar qué impactos comerciales, si es que los hay, tendrán sus experimentos a largo plazo, pero incluso en las demostraciones relativamente simples que se mostraron en Mountain View la semana pasada, es obvio que el procesamiento del lenguaje natural y la robótica gana a medida que los equipos de Google desarrollan habilidades y conocimientos más profundos y vastos conjuntos de datos sobre cómo entrenar robots.

Source link