Gantry se lanza sigilosamente para ayudar a los científicos de datos a mantener actualizados los modelos de IA

Después de un año de desarrollo, el modelo de lenguaje de IA de BigScience finalmente está disponible

by

in

Después de más de un año de planificación y capacitación, un proyecto dirigido por voluntarios produjo un modelo de lenguaje de código abierto que afirman que es tan poderoso como el GPT-3 de OpenAI, pero gratuito y abierto para que cualquiera lo use (si tiene el poder de cómputo) . Apodado Bloom, el modelo está disponible en código abierto junto con el código y los conjuntos de datos utilizados para crearlo. Hugging Face, una startup de inteligencia artificial con sede en Brooklyn, lanzó una aplicación web gratuita que permite a cualquier persona probar Bloom sin tener que descargarla.

Bloom es una creación de BigScience, un proyecto internacional impulsado por la comunidad con el objetivo de hacer que los grandes modelos de lenguaje natural estén ampliamente disponibles para la investigación. Los modelos de lenguaje grande, o “LLM” para abreviar, pueden traducir, resumir y escribir texto con matices similares a los humanos, más o menos. (Consulte GPT-3). Pero históricamente ha sido costoso crearlos, manteniéndolos fuera del alcance de los investigadores y firmemente en manos de las grandes empresas tecnológicas como Meta, Google y Microsoft.

Eso finalmente está cambiando, gracias en parte a los esfuerzos de BigScience. Los más de 1000 investigadores voluntarios del grupo —apoyados por especialistas en ética, filósofos, juristas e ingenieros de nuevas empresas y grandes empresas tecnológicas por igual— pasaron meses trabajando en Bloom, que rivaliza en escala con los LLM creados por empresas como OpenAI y Alphabet’s DeepMind. Bloom, uno de los modelos de código abierto más grandes para trabajar en varios idiomas, está diseñado para aplicarse en una variedad de aplicaciones de investigación, como la extracción de información de textos históricos.

“Bloom puede generar texto en 46 idiomas y dialectos naturales y 13 lenguajes de programación”, se lee en una publicación de blog compartida con TechCrunch antes del lanzamiento. “Aunque nunca se entrenó en ninguna de esas tareas específicas, se le puede pedir a Bloom que produzca resúmenes o traducciones de texto, genere código a partir de instrucciones y siga indicaciones para realizar tareas originales, como escribir recetas, extraer información de un artículo de noticias o componer oraciones usando una palabra inventada recién definida… El desempeño de Bloom continuará mejorando a medida que el taller continúe experimentando y avanzando por encima de Bloom”.

Los patrocinadores de BigScience también esperan que Bloom estimule nuevas investigaciones sobre formas de combatir los problemas que afectan a todos los LLM, incluidos los prejuicios y la toxicidad. Los LLM tienen una tendencia a decir falsedades y exhibir prejuicios contra las religiones, los sexos, las razas y gente con discapacidades. También luchan con los principios básicos de la escritura, a menudo cambiando el tema de una conversación sin una secuencia y repitiéndose sin cesar, o incluso contradiciéndose, a sí mismos.

“[Bloom] muestra el poder continuo del código abierto y la ciencia abierta incluso para modelos básicos grandes y costosos”, dijo Richard Socher, director ejecutivo de You.com y ex científico jefe de Salesforce, a TechCrunch por correo electrónico. Socher no está involucrado con BigScience. “También muestra que en IA, ninguna organización tiene una gran ventaja por mucho tiempo. Una vez que una organización demuestra que algo es factible, las mismas capacidades aparecerán de seis a 12 meses después en otros lugares”.

Principios humildes

Los orígenes de BigScience se encuentran en discusiones hace años entre el director científico de Hugging Face, Thomas Wolf, de GENCI Stéphane Requena y IDRIS‘Pierre-François Lavallée. Los fundadores imaginaron crear software, conjuntos de datos, LLM y herramientas para explorar el impacto social de la IA, que solo en los últimos años ha recibido una mayor atención por parte de la comunidad investigadora.

Pronto, se formaron comités directivos para brindar a los miembros de BigScience, que procedían de más de 60 países y 250 instituciones, asesoramiento científico y general, diseñar tareas colaborativas y organizar talleres, hackatones y eventos públicos. Se encargó a diferentes grupos de trabajo abordar desafíos como la gestión de datos, la demostración de teoremas matemáticos y estrategias de archivo, así como la privacidad y el consentimiento informado y otras cuestiones legales.

Bloom es la suma total de su trabajo. Fue entrenado usando $7 millones de dólares en tiempo de cómputo financiado con fondos públicos (a través de subvenciones) en la supercomputadora Jean Zay ubicada cerca de París, Francia, que se encuentra entre las máquinas más poderosas del mundo.

A robusto la discusión es en curso en círculos académicos sobre el impacto de carbono del entrenamiento en IA; Los centros de datos no son particularmente amigables con el medio ambiente. Pero BigScience dice que Jean Zay, gracias a su exclusivo sistema de enfriamiento y fuente de energía nuclear, pudo entrenar a Bloom con una huella de carbono equivalente a un vuelo de París a Nueva York.

Como todos los modelos de lenguaje, Bloom es esencialmente una herramienta estadística para predecir palabras. Alimentado con una enorme cantidad de ejemplos de un conjunto de datos de entrenamiento de 1,6 terabytes, Bloom aprendió la probabilidad de que ocurran las palabras según los patrones, incluido el contexto semántico del texto circundante. Por ejemplo, dado un correo electrónico típico que termina en el fragmento “Esperando…”, Bloom podría completarlo con “… para recibir una respuesta”.

Uno de los objetivos de los grupos de trabajo de BigScience era recopilar datos que fueran suficientemente representativos para entrenar a Bloom. Debido a los sesgos sistémicos en las fuentes de datos públicos, los LLM que no hablan inglés tradicionalmente no se han desempeñado tan bien como sus contrapartes en inglés. Basándose en libros, publicaciones académicas, transcripciones de radio, podcasts y sitios web, el conjunto de datos de 341 mil millones de palabras utilizado para entrenar a Bloom tiene como objetivo codificar diferentes contextos culturales en todos los idiomas, incluidos el swahili, el catalán, el bengalí y el vietnamita.

Los grupos de BigScience seleccionaron a mano casi dos tercios del conjunto de datos de 500 fuentes, solicitando sugerencias de grupos comunitarios, incluida la comunidad africana de procesamiento de lenguaje natural Masakhane, LatinX en IA y Machine Learning Tokyo. Redactaron por privacidad y filtraron por calidad, por ejemplo, intentando reducir una representación excesiva de sitios pornográficos, que tienden a contener asociaciones sexistas.

Bloom no está completamente libre de prejuicios, ningún LLM lo está. Pero la esperanza es que al mantener la transparencia en torno a los datos de entrenamiento, será más fácil para los investigadores llegar a la raíz de las predicciones y la toma de decisiones de Bloom.

De gran tamaño

Con 176 mil millones de parámetros, Bloom tiene aproximadamente el tamaño de GPT-3. Los parámetros en el aprendizaje automático son las partes del LLM aprendidas de los datos de entrenamiento y tienden a correlacionarse con la efectividad del modelo en una tarea como la generación de texto.

En términos generales, los modelos de parámetros más altos requieren más poder de cómputo para entrenar. Un 2020 estudiar de Laboratorios AI21 fijó los gastos para desarrollar un modelo de generación de texto con solo 1.500 millones de parámetros en hasta $ 1.6 millones; Bloom entrenó en 384 GPU Nvidia A100 durante tres meses. Ese hecho ha dificultado que la comunidad use grandes modelos de lenguaje de última generación como Megatron-Turing Natural Language Generation (MT-NLG) de Microsoft y Nvidia, que tiene 530 mil millones de parámetros.

BigScience afirma que los investigadores podrán usar Bloom por menos de $40 por hora en un proveedor de nube. Pero con el objetivo de eliminar incluso esta barrera de acceso, la organización planea lanzar versiones de Bloom más pequeñas y menos intensivas en hardware y está desarrollando un sistema distribuido que permitirá a los laboratorios compartir el modelo entre sus servidores. También se está trabajando en una API.

Bloom se une a un ecosistema floreciente de LLM altamente capaces y de código abierto con amplios usos comerciales y de investigación. En febrero, el grupo de investigación de IA abierta EleutherAI lanzó GPT-NeoX-20B, que en ese momento superó a otros modelos de lenguaje público en varios puntos de referencia. Meses después, Meta abrió el código OPT-175B, que según la compañía fue el primer modelo de lenguaje de 175 mil millones de parámetros que se puso a disposición de la comunidad de IA.

Se les ha dado un buen uso: las empresas ya han surgido alrededor de los modelos de EleutherAI. Pero algunos investigadores temen el abuso. En la Universidad de Maryland, los investigadores descubrieron que es posible que los LLM generen noticias falsas e informes de seguridad cibernética que son Convincente suficiente para engañar a los expertos. Otro papel en coautoría con investigadores de Meta, explora el daño potencial que podría surgir de los LLM que brindan malos consejos, particularmente pronósticos médicos o psicológicos.

Muchas empresas que ofrecen acceso a LLM a través de una API, como OpenAI, aplican filtros para eliminar el texto problemático. Pero los modelos de código abierto obviamente no tienen tales protecciones.

En reconocimiento del potencial de mal uso, Bloom viene con documentación que describe sus capacidades y limitaciones. Usarlo requiere aceptar una licencia legal que compromete a los investigadores a no usar el modelo con fines maliciosos. BigScience planea monitorear cómo se aplica el modelo y ajustar la licencia y la documentación según sea necesario.

“Estamos programados para agregar más idiomas, hacer que el modelo sea más pequeño para que sea más fácil de usar con el mismo nivel de rendimiento y apoyaremos los esfuerzos de la comunidad para expandirlo”, continúa la publicación del blog. “Bloom es una familia viva de modelos que crecerá, no un modelo único”.


Source link