Perceptron: IA que resuelve problemas matemáticos, traduce 200 idiomas y dibuja canguros

La investigación en el campo del aprendizaje automático y la IA, ahora una tecnología clave en prácticamente todas las industrias y empresas, es demasiado voluminosa para que alguien la lea en su totalidad. Esta columna, Perceptron, tiene como objetivo recopilar algunos de los descubrimientos y documentos recientes más relevantes, particularmente en inteligencia artificial, entre otros, y explicar por qué son importantes.

En este lote de investigaciones recientes, Meta abrió un sistema de idioma que, según afirma, es el primero capaz de traducir 200 idiomas diferentes con resultados “de última generación”. Para no quedarse atrás, Google detalló un modelo de aprendizaje automático, Minerva, que puede resolver problemas de razonamiento cuantitativo, incluidas cuestiones matemáticas y científicas. Y Microsoft lanzó un modelo de lenguaje, Gödel, por generar conversaciones “realistas” que están en la línea de Lamda ampliamente publicitada de Google. Y luego tenemos algunos nuevos generadores de texto a imagen con un giro.

El nuevo modelo de Meta, NLLB-200, es parte de la iniciativa No Language Left Behind de la compañía para desarrollar capacidades de traducción automática para la mayoría de los idiomas del mundo. Capacitado para comprender idiomas como el kamba (hablado por el grupo étnico bantú) y el lao (el idioma oficial de Laos), así como más de 540 idiomas africanos que los sistemas de traducción anteriores no admitían bien o en absoluto, el NLLB-200 se utilizará para traducir idiomas en Facebook News Feed e Instagram, además de la herramienta de traducción de contenido de la Fundación Wikimedia, anunció Meta recientemente.

La traducción de IA tiene el potencial de escalar en gran medida, y ya ha escalado, la cantidad de idiomas que se pueden traducir sin la experiencia humana. Pero como han señalado algunos investigadores, los errores que abarcan terminología incorrecta, omisiones y malas traducciones pueden surgir en las traducciones generadas por IA porque los sistemas se entrenan en gran medida con datos de Internet, no todos los cuales son de alta calidad. Por ejemplo, Google Translate una vez presupuso que los médicos eran hombres mientras que las enfermeras eran mujeres, mientras que el traductor de Bing tradujo frases como “la mesa es suave” como el femenino “die Tabelle” en alemán (que se refiere a una tabla de cifras).

Para NLLB-200, Meta dijo que “revisó por completo” su tubería de limpieza de datos con “pasos de filtrado importantes” y listas de filtrado de toxicidad para el conjunto completo de 200 idiomas. Queda por ver qué tan bien funciona en la práctica, pero, como reconocen los investigadores de Meta detrás de NLLB-200 en un artículo académico que describe sus métodos, ningún sistema está completamente libre de sesgos.

Godel, de manera similar, es un modelo de lenguaje entrenado en una gran cantidad de texto de la web. Sin embargo, a diferencia de NLLB-200, Godel fue diseñado para manejar diálogos “abiertos”: conversaciones sobre una variedad de temas diferentes.

Créditos de imagen: microsoft

Godel puede responder una pregunta sobre un restaurante o tener un diálogo de ida y vuelta sobre un tema en particular, como la historia de un vecindario o un juego deportivo reciente. De manera útil, y al igual que Lamda de Google, el sistema puede aprovechar contenido de toda la web que no formaba parte del conjunto de datos de capacitación, incluidas reseñas de restaurantes, artículos de Wikipedia y otro contenido en sitios web públicos.

Pero Godel se encuentra con los mismos escollos que NLLB-200. En un artículo, el equipo responsable de crearlo señala que “puede generar respuestas dañinas” debido a las “formas de sesgo social y otra toxicidad” en los datos utilizados para entrenarlo. Eliminar, o incluso mitigar, estos sesgos sigue siendo un desafío sin resolver en el campo de la IA, un desafío que quizás nunca se resuelva por completo.

El modelo Minerva de Google es potencialmente menos problemático. Como describe el equipo detrás de él en una publicación de blog, el sistema aprendió de un conjunto de datos de artículos científicos de 118 GB y páginas web que contenían expresiones matemáticas para resolver problemas de razonamiento cuantitativo sin usar herramientas externas como una calculadora. Minerva puede generar soluciones que incluyen cálculos numéricos y “manipulación simbólica”, logrando un rendimiento líder en los puntos de referencia populares de STEM.

Minerva no es el primer modelo desarrollado para resolver este tipo de problemas. Por nombrar algunos, DeepMind de Alphabet demostró múltiples algoritmos que pueden ayudar a los matemáticos en tareas complejas y abstractas, y OpenAI ha experimentado con un sistema entrenado para resolver problemas matemáticos de nivel escolar. Pero Minerva incorpora técnicas recientes para resolver mejor las preguntas matemáticas, dice el equipo, incluido un enfoque que implica “impulsar” el modelo con varias soluciones paso a paso a las preguntas existentes antes de presentarlo con una nueva pregunta.

Créditos de imagen: Google

Minerva todavía comete una buena cantidad de errores y, a veces, llega a una respuesta final correcta pero con un razonamiento defectuoso. Aún así, el equipo espera que sirva como base para modelos que “ayudan a ampliar las fronteras de la ciencia y la educación”.

La pregunta de qué “saben” realmente los sistemas de IA es más filosófica que técnica, pero cómo organizan ese conocimiento es una pregunta justa y relevante. Por ejemplo, un sistema de reconocimiento de objetos puede mostrar que “entiende” que los gatos domésticos y los tigres son similares en algunos aspectos al permitir que los conceptos se superpongan deliberadamente en la forma en que los identifica, o tal vez realmente no lo entienda y los dos tipos de las criaturas son totalmente ajenas a él.

Los investigadores de UCLA querían ver si los modelos de lenguaje “entendían” las palabras en ese sentido, y desarrolló un método llamado “proyección semántica” que sugiere que sí, lo hacen. Si bien no puede simplemente pedirle al modelo que explique cómo y por qué una ballena es diferente de un pez, puede ver qué tan cerca asocia esas palabras con otras palabras, como mamífero, grande, escamas, etc. Si la ballena se asocia mucho con mamíferos y grandes pero no con escamas, sabes que tiene una idea decente de lo que está hablando.

Un ejemplo de dónde los animales caen en el espectro pequeño a grande según lo conceptualizado por el modelo.

Como ejemplo simple, encontraron que animal coincidía con los conceptos de tamaño, género, peligro y humedad (la selección era un poco extraña) mientras que los estados coincidían con el clima, la riqueza y el partidismo. Los animales son independientes y los estados no tienen género, por lo que todas las pistas.

En este momento, no hay una prueba más segura de si un modelo entiende algunas palabras que pedirle que las dibuje, y los modelos de texto a imagen siguen mejorando. El modelo “Pathways Autoregressive Text-to-Image” o Parti de Google parece ser uno de los mejores hasta ahora, pero es difícil compararlo con la competencia (DALL-E et al.) sin acceso, que es algo que pocos de los modelos ofrecen. . Puede leer sobre el enfoque Parti aquí, en cualquier caso.

Un aspecto interesante del artículo de Google es mostrar cómo funciona el modelo con un número creciente de parámetros. Vea cómo la imagen mejora gradualmente a medida que aumentan los números:

El mensaje fue: “Una foto de retrato de un canguro con una sudadera con capucha naranja y gafas de sol azules parado en el césped frente a la Ópera de Sídney con un cartel en el pecho que dice ¡Bienvenidos amigos!”.

¿Significa esto que los mejores modelos tendrán decenas de miles de millones de parámetros, lo que significa que llevará mucho tiempo entrenarlos y ejecutarlos solo en supercomputadoras? Por ahora, claro, es una especie de enfoque de fuerza bruta para mejorar las cosas, pero el “tic-tac” de la IA significa que el siguiente paso no es solo hacerlo más grande y mejor, sino hacerlo más pequeño y equivalente. Veremos quién logra sacar eso adelante.

Para no quedarse fuera de la diversión, Meta también mostró un modelo de IA generativa esta semana, aunque afirma que da más agencia a los artistas que lo usan. Habiendo jugado mucho con estos generadores yo mismo, parte de la diversión es ver lo que sale, pero con frecuencia vienen con diseños sin sentido o no “entienden” el aviso. Make-A-Scene de Meta tiene como objetivo arreglar eso.

Animación de diferentes imágenes generadas a partir de un mismo texto y boceto.

No es una idea del todo original: pintas una silueta básica de lo que estás hablando y la usa como base para generar una imagen encima. Vimos algo así en 2020 con el generador de pesadillas de Google. Este es un concepto similar pero ampliado para permitirle crear imágenes realistas a partir de indicaciones de texto utilizando el boceto como base pero con mucho espacio para la interpretación. Podría ser útil para los artistas que tienen una idea general de lo que están pensando pero quieren incluir la creatividad extraña y sin límites del modelo.

Como la mayoría de estos sistemas, Make-A-Scene en realidad no está disponible para uso público, ya que, como los demás, es bastante codicioso en cuanto a computación. No se preocupe, pronto tendremos versiones decentes de estas cosas en casa.

Source link