La visión por computadora avanza hacia el 'sentido común' con la última investigación de Facebook

La visión por computadora avanza hacia el ‘sentido común’ con la última investigación de Facebook

El aprendizaje automático es capaz de hacer todo tipo de cosas siempre que tenga los datos para enseñarle cómo hacerlo. Eso no siempre es fácil, y los investigadores siempre están buscando una manera de agregar un poco de “sentido común” a la IA para que no tenga que mostrarle 500 imágenes de un gato antes de que lo entienda. La investigación más reciente de Facebook da un gran paso hacia la reducción del cuello de botella de datos.

La formidable división de investigación de inteligencia artificial de la compañía ha estado trabajando en cómo avanzar y escalar cosas como algoritmos avanzados de visión por computadora durante años, y ha logrado un progreso constante, generalmente compartido con el resto de la comunidad de investigación. Un desarrollo interesante que Facebook ha perseguido en particular es lo que se llama “aprendizaje semi-supervisado”.

Generalmente, cuando piensas en entrenar a una IA, piensas en algo como las 500 imágenes de gatos antes mencionadas: imágenes que han sido seleccionadas y etiquetadas (lo que puede significar delinear al gato, poner una caja alrededor del gato o simplemente decir que hay un gato en allí en algún lugar) para que el sistema de aprendizaje automático pueda armar un algoritmo para automatizar el proceso de reconocimiento de gatos. Naturalmente, si quieres hacer perros o caballos, necesitas 500 imágenes de perros, 500 imágenes de caballos, etc. linealmente, que es una palabra que nunca querrás ver en tecnología.

El aprendizaje semi-supervisado, relacionado con el aprendizaje “no supervisado”, implica descubrir partes importantes de un conjunto de datos sin ningún dato etiquetado. No solo se vuelve loco, todavía hay estructura; por ejemplo, imagina que le das al sistema mil oraciones para estudiar y luego le muestras diez más a las que les faltan varias palabras. El sistema probablemente podría hacer un trabajo decente completando los espacios en blanco basándose en lo que se vio en los mil anteriores. Pero eso no es tan fácil de hacer con imágenes y videos, no son tan sencillos ni predecibles.

Pero los investigadores de Facebook han demostrado que, si bien puede que no sea fácil, es posible y, de hecho, muy efectivo. El sistema DINO (que significa de manera poco convincente “Destilación del conocimiento sin etiquetas”) es capaz de aprender a encontrar objetos de interés en videos de personas, animales y objetos bastante bien sin ningún dato etiquetado.

Animación que muestra cuatro videos y la interpretación de la IA de los objetos en ellos.

Créditos de imagen: Facebook

Lo hace al considerar el video no como una secuencia de imágenes que se analizarán una a una en orden, sino como un conjunto complejo e interrelacionado, como la diferencia entre “una serie de palabras” y “una oración”. Al prestar atención a la mitad y al final del video, así como al principio, el agente puede tener una idea de cosas como “un objeto con esta forma general va de izquierda a derecha”. Esa información se alimenta de otros conocimientos, como cuando un objeto de la derecha se superpone con el primero, el sistema sabe que no son lo mismo, solo se tocan en esos marcos. Y ese conocimiento a su vez se puede aplicar a otras situaciones. En otras palabras, desarrolla un sentido básico de significado visual y lo hace con muy poco entrenamiento en nuevos objetos.

Esto da como resultado un sistema de visión por computadora que no solo es efectivo, funciona bien en comparación con los sistemas entrenados tradicionalmente, sino que es más identificable y explicable. Por ejemplo, si bien una IA que ha sido entrenada con 500 imágenes de perros y 500 imágenes de gatos reconocerá ambas, realmente no tendrá idea de que son similares de ninguna manera. Pero DINO, aunque no podría ser específico, entiende que son similares visualmente entre sí, más aún que a los automóviles, y que los metadatos y el contexto son visibles en su memoria. Los perros y los gatos están “más cerca” en su tipo de espacio cognitivo digital que los perros y las montañas. Puede ver esos conceptos como pequeñas manchas aquí: vea cómo se unen los de un tipo:

Diagrama animado que muestra cómo los conceptos del modelo de aprendizaje automático se mantienen juntos.

Créditos de imagen: Facebook

Esto tiene sus propios beneficios, de tipo técnico que no veremos aquí. Si tiene curiosidad, hay más detalles en los documentos vinculados en la publicación del blog de Facebook.

También hay un proyecto de investigación adyacente, un método de entrenamiento llamado PAWS, que reduce aún más la necesidad de datos etiquetados. PAWS combina algunas de las ideas del aprendizaje semi-supervisado con el método supervisado más tradicional, esencialmente dando un impulso a la capacitación al permitirle aprender de los datos etiquetados y no etiquetados.

Por supuesto, Facebook necesita un análisis de imágenes bueno y rápido para sus muchos productos relacionados con imágenes de cara al usuario (y secretas), pero estos avances generales en el mundo de la visión por computadora sin duda serán bienvenidos por la comunidad de desarrolladores para otros fines.


Source link