Los investigadores de Facebook recopilan miles de horas de video en primera persona para entrenar a la IA

Si las IA del futuro, como muchas empresas de tecnología parecen esperar, van a mirar a través de nuestros ojos en forma de gafas de realidad aumentada y otros dispositivos portátiles, deberán aprender a entender la perspectiva humana. Estamos acostumbrados, por supuesto, pero hay muy pocas imágenes de video en primera persona de las tareas diarias, por eso Facebook recopilado unos miles de horas para un nuevo conjunto de datos disponible públicamente.

El desafío que Facebook está tratando de controlar es simplemente que incluso los modelos de reconocimiento de objetos y escenas más impresionantes de la actualidad se han entrenado casi exclusivamente en perspectivas en tercera persona. Por lo tanto, puede reconocer a una persona cocinando, pero solo si ve a esa persona parada en una cocina, no si la vista es desde los ojos de la persona. O reconocerá una bicicleta, pero no desde la perspectiva del ciclista. Es un cambio de perspectiva que damos por sentado, porque es una parte natural de nuestra experiencia, pero que las computadoras encuentran bastante difícil.

La solución a los problemas de aprendizaje automático es generalmente más o mejores datos, y en este caso no está de más tener ambos. Así que Facebook se puso en contacto con socios de investigación de todo el mundo para recopilar videos en primera persona de actividades comunes como cocinar, ir de compras, escribir cordones de zapatos o simplemente pasar el rato.

Las 13 universidades asociadas recopilaron miles de horas de video de más de 700 participantes en nueve países, y debe decirse desde el principio que eran voluntarios y controlaban el nivel de su propia participación e identidad. Esas miles de horas fueron reducidas a 3,000 por un equipo de investigación que vio, editó y anotó a mano el video, mientras agregaba sus propias imágenes de entornos escenificados que no podían capturar en la naturaleza. Todo está descrito en este artículo de investigación.

El metraje fue capturado por una variedad de métodos, desde cámaras con gafas hasta GoPros y otros dispositivos, y algunos investigadores también optaron por escanear el entorno en el que la persona estaba operando, mientras que otros rastrearon la dirección de la mirada y otras métricas. Todo va a un conjunto de datos de Facebook llamado Ego4D que estará disponible gratuitamente para la comunidad de investigación en general.

Dos imágenes, una que muestra la visión por computadora que identifica objetos con éxito y otra que muestra su falla en primera persona. Créditos de imagen: Facebook

“Para que los sistemas de IA interactúen con el mundo como lo hacemos nosotros, el campo de la IA debe evolucionar hacia un paradigma completamente nuevo de percepción en primera persona. Eso significa enseñar a la IA a comprender las actividades de la vida diaria a través de los ojos humanos en el contexto del movimiento en tiempo real, la interacción y las observaciones multisensoriales ”, dijo la investigadora principal Kristen Grauman en una publicación de blog de Facebook.

Por difícil que sea de creer, esta investigación y las cortinas inteligentes Ray-Ban Stories no tienen ninguna relación, excepto en que Facebook claramente piensa que la comprensión en primera persona es cada vez más importante para múltiples disciplinas. (Sin embargo, los escaneos 3D podrían usarse en el simulador de entrenamiento de IA de Habitat de la compañía).

“Nuestra investigación está fuertemente motivada por aplicaciones en realidad aumentada y robótica”, dijo Grauman a TechCrunch. “La percepción en primera persona es fundamental para habilitar a los asistentes de inteligencia artificial del futuro, especialmente cuando los dispositivos portátiles como las gafas AR se convierten en una parte integral de cómo las personas viven y se mueven a lo largo de la vida cotidiana. Piense en lo beneficioso que sería si los asistentes de sus dispositivos pudieran eliminar la sobrecarga cognitiva de su vida, entendiendo su mundo a través de sus ojos “.

La naturaleza global del video recopilado es un movimiento muy deliberado. Sería fundamentalmente miope incluir solo imágenes de un solo país o cultura. Las cocinas en los Estados Unidos se ven diferentes a las francesas, ruandesas y japonesas. Hacer el mismo plato con los mismos ingredientes o realizar la misma tarea general (limpiar, hacer ejercicio) puede verse muy diferente incluso entre individuos, y mucho menos entre culturas enteras. Entonces, como dice la publicación de Facebook, “En comparación con los conjuntos de datos existentes, el conjunto de datos de Ego4D proporciona una mayor diversidad de escenas, personas y actividades, lo que aumenta la aplicabilidad de modelos entrenados para personas de diferentes orígenes, etnias, ocupaciones y edades. “

Ejemplos de Facebook de video en primera persona y el entorno en el que se tomó. Créditos de imagen: Facebook

La base de datos no es lo único que está lanzando Facebook. Con este tipo de avance en la recopilación de datos, es común también presentar un conjunto de puntos de referencia para probar qué tan bien un modelo determinado está utilizando la información. Por ejemplo, con un conjunto de imágenes de perros y gatos, es posible que desee un punto de referencia estándar que pruebe la eficacia del modelo para decir cuál es cuál.

En este caso las cosas son un poco más complicadas. Simplemente identificar objetos desde un punto de vista en primera persona no es tan difícil, es solo un ángulo diferente, en realidad, y tampoco sería tan nuevo ni tan útil. ¿Realmente necesitas un par de anteojos AR para decirte “eso es un tomate”? No: como cualquier otra herramienta, un dispositivo de RA debería decirte algo que no sabes y, para hacerlo, necesita una comprensión más profunda de cosas como intenciones, contextos y acciones vinculadas.

Con ese fin, los investigadores propusieron cinco tareas que, en teoría, de todos modos, se pueden lograr mediante el análisis de estas imágenes en primera persona:

Memoria episódica: seguimiento de objetos y conceptos en el tiempo y el espacio para que preguntas arbitrarias como “¿dónde están mis llaves?” puede ser respondido.
Previsión: comprender secuencias de eventos para que preguntas como “¿qué sigue en la receta?” se puede responder, o se pueden anotar cosas de manera preventiva, como “dejó las llaves del auto en la casa”.
Interacción mano-objeto: identificar cómo las personas agarran y manipulan objetos, y qué sucede cuando lo hacen, lo que puede alimentar la memoria episódica o quizás informar las acciones de un robot que debe imitar esas acciones.
Diarios audiovisuales: asociar el sonido con eventos y objetos para que el habla o la música se puedan rastrear inteligentemente en situaciones como preguntar qué canción estaba sonando en el café o qué dijo el jefe al final de la reunión. (“Diarización” es su “palabra”).
Interacción social: comprender quién está hablando con quién y qué se dice, tanto para informar los otros procesos como para el uso en el momento, como subtitular en una habitación ruidosa con varias personas.

Estas no son las únicas aplicaciones o evaluaciones comparativas posibles, por supuesto, solo un conjunto de ideas iniciales para probar si un modelo de IA dado realmente obtiene lo que está sucediendo en un video en primera persona. Los investigadores de Facebook realizaron una ejecución de nivel básico en cada tarea, descrita en su artículo, que sirve como punto de partida. También hay una especie de ejemplo de video de pastel en el cielo de cada una de estas tareas si tuvieran éxito en este video resumiendo la investigación.

Si bien las 3.000 horas, meticulosamente anotadas a mano en más de 250.000 horas de investigación, Grauman tuvo cuidado de señalar, son un orden de magnitud más de lo que hay ahora, todavía hay mucho espacio para crecer, señaló. Están planeando aumentar el conjunto de datos y también están agregando socios activamente.

Si está interesado en usar los datos, esté atento al blog de investigación de inteligencia artificial de Facebook y tal vez póngase en contacto con una de las muchas, muchas personas que figuran en el documento. Se lanzará en los próximos meses una vez que el consorcio descubra exactamente cómo hacerlo.

Source link