Serenade consigue una ronda inicial de 2,1 millones de dólares para convertir el habla en código

Los tipos emergentes de modelos lingüísticos y por qué son importantes

Los sistemas de IA que entienden y generan texto, conocidos como modelos de lenguaje, son lo nuevo en la empresa. Un reciente encuesta descubrió que el 60 % de los líderes tecnológicos dijeron que sus presupuestos para tecnologías de lenguaje de IA aumentaron al menos un 10 % en 2020, mientras que el 33 % informó un aumento del 30 %.

Pero no todos los modelos de lenguaje son iguales. Varios tipos están emergiendo como dominantes, incluidos modelos grandes de propósito general como GPT-3 de OpenAI y modelos ajustados para tareas particulares (piense en responder preguntas de la mesa de TI). En el borde existe una tercera categoría de modelo, uno que tiende a tener un tamaño muy comprimido y está limitado a unas pocas capacidades, diseñado específicamente para ejecutarse en dispositivos y estaciones de trabajo de Internet de las cosas.

Estos diferentes enfoques tienen grandes diferencias en fortalezas, deficiencias y requisitos: así es como se comparan y dónde puede esperar verlos implementados durante el próximo año o dos.

Grandes modelos de lenguaje

Los modelos de lenguaje grande tienen, en general, decenas de gigabytes de tamaño y están entrenados con enormes cantidades de datos de texto, a veces a escala de petabytes. También se encuentran entre los modelos más grandes en términos de recuento de parámetros, donde un “parámetro” se refiere a un valor que el modelo puede cambiar de forma independiente a medida que aprende. Los parámetros son las partes del modelo aprendidas a partir de los datos de entrenamiento históricos y esencialmente definen la habilidad del modelo en un problema, como la generación de texto.

“Los modelos grandes se utilizan para escenarios de tiro cero o escenarios de pocos tiros donde poco dominio-[tailored] los datos de entrenamiento están disponibles y generalmente funcionan bien generando algo basado en algunas indicaciones”, Fangzheng Xu, Ph.D. estudiante de Carnegie Mellon que se especializa en procesamiento de lenguaje natural, le dijo a TechCrunch por correo electrónico. En el aprendizaje automático, “pocos disparos” se refiere a la práctica de entrenar un modelo con datos mínimos, mientras que “cero disparos” implica que un modelo puede aprender a reconocer cosas que no ha visto explícitamente durante el entrenamiento.

“Un solo modelo grande podría potencialmente habilitar muchas tareas posteriores con pocos datos de entrenamiento”, continuó Xu.

El uso de modelos de lenguaje grande ha crecido dramáticamente en los últimos años a medida que los investigadores desarrollan arquitecturas más nuevas y más grandes. En junio de 2020, la startup de inteligencia artificial OpenAI lanzó GPT-3, un modelo de 175 000 millones de parámetros que puede generar texto e incluso código con un mensaje breve que contiene instrucciones. Posteriormente, el grupo de investigación abierta EleutherAI puso a disposición GPT-J, un modelo de lenguaje más pequeño (6 mil millones de parámetros) pero igualmente capaz que puede traducir entre idiomas, escribir publicaciones de blog, código completo y más. Más recientemente, Microsoft y Nvidia crearon un modelo de código abierto llamado Megatron-Turing Natural Language Generation (MT-NLG), que se encuentra entre los modelos más grandes para comprensión de lectura y inferencia del lenguaje natural desarrollado hasta la fecha en 530 mil millones de parámetros.

“Una de las razones por las que estos grandes modelos de lenguaje siguen siendo tan notables es que se puede usar un solo modelo para tareas” que incluyen respuesta a preguntas, resumen de documentos, generación de texto, finalización de oraciones, traducción y más, dijo a TechCrunch Bernard Koch, científico social computacional de UCLA. vía correo electrónico. “Una segunda razón es porque su rendimiento sigue escalando a medida que agrega más parámetros al modelo y agrega más datos… La tercera razón por la que los modelos de lenguaje preentrenados muy grandes son notables es que parecen ser capaces de hacer predicciones decentes cuando se les da. solo un puñado de ejemplos etiquetados”.

Startups como Cohere y AI21 Labs también ofrecen modelos similares a GPT-3 a través de API. Otras empresas, en particular los gigantes tecnológicos como Google, han optado por mantener los grandes modelos de lenguaje que han desarrollado internamente y en secreto. Por ejemplo, Google detalló recientemente, pero se negó a publicar, un modelo de 540 mil millones de parámetros llamado PaLM que, según la compañía, logra un rendimiento de vanguardia en todas las tareas lingüísticas.

Los grandes modelos de lenguaje, de código abierto o no, tienen en común altos costos de desarrollo. Un 2020 estudio desde Laboratorios AI21 fijó los gastos para desarrollar un modelo de generación de texto con solo 1.500 millones de parámetros en hasta $ 1.6 millones. La inferencia, en realidad ejecutar el modelo entrenado, es otro drenaje. Una fuente estimados el costo de ejecutar GPT-3 en una sola instancia de AWS (p3dn.24xgrande) a un mínimo de $87,000 por año.

“Los modelos grandes serán más grandes, más potentes, versátiles, más multimodales y más baratos de entrenar. Solo las grandes empresas tecnológicas y las empresas emergentes extremadamente bien financiadas pueden jugar este juego”, Vu Ha, director técnico de la Incubadora AI2, le dijo a TechCrunch por correo electrónico. “Los modelos grandes son excelentes para la creación de prototipos, la construcción de nuevas pruebas de concepto y la evaluación de la viabilidad técnica. Rara vez son la opción correcta para la implementación en el mundo real debido al costo. Una aplicación que procese tweets, mensajes de Slack, correos electrónicos y similares de manera regular tendría un costo prohibitivo si usa GPT-3”.

Los modelos de lenguaje grande seguirán siendo el estándar para los servicios en la nube y las API, donde la versatilidad y el acceso empresarial son más importantes que la latencia. Pero a pesar de la arquitectura reciente innovacioneseste tipo de modelos de lenguaje seguirán siendo poco prácticos para la mayoría de las organizaciones, ya sean académicas, públicas o del sector privado.

Modelos de lenguaje afinados

Los modelos ajustados son generalmente más pequeños que sus contrapartes de modelos de lenguaje grande. Los ejemplos incluyen Codex de OpenAI, un descendiente directo de GPT-3 ajustado para tareas de programación. Si bien aún contiene miles de millones de parámetros, Codex es más pequeño que OpenAI y mejor para generar y completar cadenas de código de computadora.

El ajuste fino puede mejorar la capacidad de un modelo para realizar una tarea, por ejemplo, responder preguntas o generar secuencias de proteínas (como en el caso de Salesforce). progen). Pero también puede reforzar la comprensión de un modelo de ciertos temas, como investigación clínica.

“Los modelos ajustados… son buenos para tareas maduras con muchos datos de entrenamiento”, dijo Xu. “Los ejemplos incluyen la traducción automática, la respuesta a preguntas, el reconocimiento de entidades nombradas, la vinculación de entidades [and] recuperación de información.”

Las ventajas no se detienen ahí. Debido a que los modelos ajustados se derivan de los modelos de lenguaje existentes, los modelos ajustados no requieren tanto tiempo (ni computación) para entrenarse o ejecutarse. (Los modelos más grandes como los mencionados anteriormente pueden tardar semanas o requerir mucho más poder de cómputo para entrenarse en días). Tampoco requieren tantos datos como los modelos de lenguaje grandes. GPT-3 se entrenó en 45 terabytes de texto frente a los 159 gigabytes en los que se entrenó Codex.

Se han aplicado ajustes finos a muchos dominios, pero un ejemplo reciente especialmente fuerte es InstructGPT de OpenAI. Usando una técnica llamada “aprendizaje de refuerzo a partir de la retroalimentación humana”, OpenAI recopiló un conjunto de datos de demostraciones escritas por humanos en solicitudes enviadas a la API de OpenAI y solicitudes escritas por un equipo de etiquetadores de datos humanos. Aprovecharon estos conjuntos de datos para crear ramificaciones ajustadas de GPT-3 que, además de tener una centésima parte del tamaño de GPT-3, tienen menos probabilidades de generar texto problemático mientras se alinean estrechamente con la intención del usuario.

En otra demostración del poder del ajuste fino, los investigadores de Google publicaron en febrero un estudio afirmando que un modelo mucho más pequeño que GPT-3, red de lenguaje ajustado (FLAN), supera a GPT-3 “por un amplio margen” en una serie de puntos de referencia desafiantes. FLAN, que tiene 137 mil millones de parámetros, superó a GPT-3 en 19 de las 25 tareas en las que los investigadores lo probaron e incluso superó el rendimiento de GPT-3 en 10 tareas.

“Creo que el ajuste fino es probablemente el enfoque más utilizado en la industria en este momento, y no veo que eso cambie a corto plazo. Por ahora, el ajuste fino en modelos de lenguaje más pequeños permite a los usuarios un mayor control para resolver sus problemas especializados utilizando sus propios datos específicos de dominio”, dijo Koch. “En lugar de distribuir [very large language] modelos que los usuarios pueden ajustar por su cuenta, las empresas están comercializando el aprendizaje de pocas tomas a través de indicaciones de la API en las que puede proporcionar al modelo indicaciones y ejemplos breves”.

Modelos de lenguaje de borde

Los modelos Edge, que tienen un tamaño pequeño a propósito, pueden tomar la forma de modelos ajustados, pero no siempre. A veces, se les entrena desde cero en pequeños conjuntos de datos para cumplir con restricciones de hardware específicas (por ejemplo, hardware del servidor web local o del teléfono). En cualquier caso, los modelos perimetrales, aunque limitados en algunos aspectos, ofrecen una gran cantidad de beneficios que los modelos de lenguajes grandes no pueden igualar.

El costo es importante. Con un modelo perimetral que se ejecuta fuera de línea y en el dispositivo, no hay tarifas de uso de la nube que pagar. (Incluso los modelos ajustados a menudo son demasiado grandes para ejecutarse en máquinas locales; MT-NLG puede tardar más de un minuto en generar texto en un procesador de escritorio). Tareas como analizar millones de tweets pueden acumular miles de dólares en tarifas en la nube popular. -modelos basados

Los modelos de borde también ofrecen mayor privacidad que sus contrapartes vinculadas a Internet, en teoría, porque no necesitan transmitir o analizar datos en la nube. También son más rápidos, una ventaja clave para aplicaciones como la traducción. Las aplicaciones como Google Translate se basan en modelos perimetrales para ofrecer traducciones sin conexión.

“Es probable que la computación de borde se implemente en entornos donde se necesita una retroalimentación inmediata… En general, creo que estos son escenarios en los que los humanos interactúan conversacionalmente con IA o robots o algo así como automóviles autónomos que leen las señales de tráfico”, dijo Koch. “Como ejemplo hipotético, Nvidia tiene una demostración en la que un chatbot de borde tiene una conversación con clientes en un restaurante de comida rápida. Un caso de uso final podría ser la toma de notas automatizada en registros médicos electrónicos. Procesar una conversación rápidamente en estas situaciones es esencial”.

Por supuesto, los modelos pequeños no pueden lograr todo lo que pueden lograr los modelos grandes. Están limitados por el hardware que se encuentra en los dispositivos de borde, que va desde procesadores de un solo núcleo hasta sistemas en chips equipados con GPU. Además, algunas investigaciones sugieren que las técnicas utilizadas para desarrollarlas pueden amplificar las características no deseadascomo el sesgo algorítmico.

“[There’s usually a] compensación entre el uso de energía y el poder predictivo. Además, la computación de los dispositivos móviles en realidad no está aumentando al mismo ritmo que los clústeres de computación distribuida de alto rendimiento, por lo que el rendimiento puede retrasarse cada vez más”, dijo Xu.

Mirando hacia el futuro

A medida que los modelos lingüísticos grandes, perfeccionados y vanguardistas continúan evolucionando con nuevas investigaciones, es probable que encuentren obstáculos en el camino hacia una adopción más amplia. Por ejemplo, mientras que el ajuste fino de los modelos requiere menos datos en comparación con el entrenamiento de un modelo desde cero, el ajuste fino aún requiere un conjunto de datos. Según el dominio, por ejemplo, la traducción de un idioma poco hablado, es posible que los datos no existan.

“La desventaja del ajuste fino es que todavía requiere una buena cantidad de datos. La desventaja del aprendizaje de pocos disparos es que no funciona tan bien como el ajuste fino, y que los científicos de datos y los ingenieros de aprendizaje automático tienen menos control sobre el modelo porque solo interactúan con él a través de una API”, continuó Koch. “Y las desventajas de la IA perimetral son que los modelos complejos no pueden caber en dispositivos pequeños, por lo que el rendimiento es estrictamente peor que los modelos que pueden caber en una sola GPU de escritorio, y mucho menos los modelos de lenguaje grande basados ​​en la nube distribuidos en decenas de miles de GPU”.

Xu señala que todos los modelos de lenguaje, independientemente de su tamaño, siguen sin estudiarse en ciertos aspectos importantes. Ella espera que áreas como la explicabilidad y la interpretabilidad, que tienen como objetivo comprender cómo y por qué funciona un modelo y exponer esta información a los usuarios, reciban una mayor atención e inversión en el futuro, particularmente en dominios de “alto riesgo” como la medicina.

“La procedencia es realmente un próximo paso importante que deberían tener estos modelos”, dijo Xu. “En el futuro, habrá técnicas de ajuste fino cada vez más eficientes… para acomodar el costo creciente de ajustar un modelo más grande en su totalidad. Los modelos Edge seguirán siendo importantes, ya que cuanto más grande sea el modelo, más investigación y desarrollo se necesitarán para destilar o comprimir el modelo para que se ajuste a los dispositivos Edge”.


Source link