Unified-IO es un sistema de IA que puede completar una variedad de tareas, incluida la generación de imágenes

El Instituto Allen para IA (AI2), la división dentro del Instituto Allen sin fines de lucro que se enfoca en la investigación de aprendizaje automático, publicó hoy su trabajo en un sistema de IA, llamado Unified-IO, que afirma es uno de los primeros en realizar un “gran y diverso ” conjunto de tareas de IA. Unified-IO puede procesar y crear imágenes, texto y otros datos estructurados, una hazaña que el equipo de investigación detrás de esto dice que es un paso hacia la construcción de sistemas de IA de propósito general unificados y capaces.

“Estamos interesados en construir tareas agnósticas [AI systems]que puede permitir a los profesionales entrenar [machine learning] modelos para nuevas tareas con poco o ningún conocimiento de la maquinaria subyacente”, dijo a TechCrunch por correo electrónico Jaisen Lu, un científico investigador de AI2 que trabajó en Unified-IO. “Estas arquitecturas unificadas alivian la necesidad de parámetros específicos de tareas y modificaciones del sistema, pueden capacitarse conjuntamente para realizar una gran variedad de tareas y pueden compartir conocimientos entre tareas para mejorar el rendimiento”.

Los primeros esfuerzos de AI2 en la construcción de sistemas de IA unificados llevaron a GPV-1 y GPV-2, dos sistemas de “lenguaje de visión” de uso general que admitían un puñado de cargas de trabajo, incluidas las imágenes de subtítulos y la respuesta a preguntas. Unified-IO requería volver a la mesa de dibujo, según Lu, y diseñar un nuevo modelo desde cero.

Unified-IO comparte características en común con GPT-3 de OpenAI en el sentido de que es un “Transformador”. Desde 2017, el Transformer se ha convertido en la arquitectura elegida para tareas de razonamiento complejo, demostrando una aptitud para resumir documentos, generar música, clasificar objetos en imágenes y analizar secuencias de proteínas.

Como todos los sistemas de IA, Unified-IO aprendió con el ejemplo, incorporando miles de millones de palabras, imágenes y más en forma de tokens. Estos tokens sirvieron para representar datos de una manera que Unified-IO pudiera entender.

Unified-IO puede generar imágenes dada una breve descripción.

“La comunidad de procesamiento de lenguaje natural (NLP) ha tenido mucho éxito en la construcción de [AI systems] que admiten muchas tareas diferentes, ya que muchas tareas de PNL se pueden representar de manera homogénea: palabras como entrada y palabras como salida. Pero la naturaleza y diversidad de las tareas de visión por computadora ha significado que los modelos multitarea en el pasado se hayan limitado a un pequeño conjunto de tareas, y en su mayoría tareas que producen resultados de lenguaje (responder una pregunta, poner título a una imagen, etc.)”, Chris Clark , que colaboró con Lu en Unified-IO en AI2, le dijo a TechCrunch en un correo electrónico. “Unified-IO demuestra que al convertir una variedad de salidas estructuradas diversas como imágenes, máscaras binarias, cuadros delimitadores, conjuntos de puntos clave, mapas en escala de grises y más en secuencias homogéneas de tokens, podemos modelar una gran cantidad de tareas clásicas de visión por computadora muy similares. a cómo modelamos las tareas en la PNL”.

A diferencia de algunos sistemas, Unified-IO no puede analizar ni crear videos y audio, una limitación del modelo “desde una perspectiva de modalidad”, explicó Clark. Pero entre las tareas que Unified-IO puede realizar se encuentran la generación de imágenes, la detección de objetos dentro de las imágenes, la estimación de la profundidad, la paráfrasis de documentos y el resaltado de regiones específicas dentro de las fotografías.

“Esto tiene enormes implicaciones para la visión por computadora, ya que comienza a tratar modalidades tan diversas como imágenes, máscaras, lenguaje y cuadros delimitadores como simples secuencias de tokens, similares al lenguaje”, agregó Clark. “Además, la unificación a esta escala ahora puede abrir las puertas a nuevas vías en la visión por computadora, como el preentrenamiento unificado masivo, la transferencia de conocimientos entre tareas, el aprendizaje con pocas tomas y más”.

Matthew Guzdial, profesor asistente de ciencias de la computación en la Universidad de Alberta que no participó en la investigación de AI2, se mostró reacio a llamar a Unified-IO un gran avance. Señaló que el sistema es comparable al Gato recientemente detallado de DeepMind, un modelo único que puede realizar más de 600 tareas, desde jugar juegos hasta controlar robots.

“La diferencia [between Unified-IO and Gato] es obviamente que es un conjunto diferente de tareas, pero también que estas tareas son mucho más utilizables. Con eso quiero decir que hay casos de uso claros y actuales para las cosas que puede hacer esta red Unified-IO, mientras que Gato podría en su mayoría solo jugar juegos. Esto hace que sea más probable que Unified-IO o algún modelo similar impacte en la vida de las personas en términos de productos y servicios potenciales”, dijo Guzdial. “Mi única preocupación es que, si bien la demostración es llamativa, no hay idea de qué tan bien se desempeña en estas tareas en comparación con los modelos entrenados en estas tareas individuales por separado. Dada la forma en que Gato tuvo un desempeño inferior al de los modelos capacitados en las tareas individuales, espero que ocurra lo mismo aquí”.

Unified-IO también puede segmentar imágenes, incluso con iluminación desafiante.

Sin embargo, los investigadores de AI2 consideran que Unified-IO es una base sólida para el trabajo futuro. Planean mejorar la eficiencia del sistema mientras agregan soporte para más modalidades, como audio y video, y lo amplían para mejorar el rendimiento.

“Trabajos recientes como Imagen y DALL-E 2 han demostrado que con suficientes datos de entrenamiento, los modelos… pueden entrenarse para producir resultados muy impresionantes. Sin embargo, estos modelos solo admiten una tarea”, dijo Clark. “Unified-IO puede permitirnos entrenar modelos multitarea a gran escala. Nuestra hipótesis es que ampliar enormemente los datos y el tamaño del modelo producirá resultados mucho mejores”.

Source link