Meta lanza Llama 2, un conjunto más ‘útil’ de modelos generadores de texto

Neto

hace 10 meses

Meta se asocia con Microsoft para llevar Teams, aplicaciones y juegos de Windows a los dispositivos Quest

El panorama de la IA generativa crece día a día.

Hoy, Meta anunció una nueva familia de modelos de IA, Llama 2, diseñado para impulsar aplicaciones como ChatGPT de OpenAI, Bing Chat y otros chatbots modernos. Entrenado en una combinación de datos disponibles públicamente, Meta afirma que el rendimiento de Llama 2 mejora significativamente con respecto a la generación anterior de modelos Llama.

Llama 2 es la continuación de Llama, una colección de modelos que podrían generar texto y código en respuesta a indicaciones, comparable a otros sistemas similares a chatbots. Pero Llama solo estaba disponible a pedido; Meta decidió bloquear el acceso a los modelos por temor a un uso indebido. (A pesar de esta medida de precaución, Llama luego se filtró en línea y se extendió a varias comunidades de IA).

Por el contrario, Llama 2, que es gratuito para investigación y uso comercial, estará disponible para ajustes en AWS, Azure y la plataforma de alojamiento de modelos de IA de Hugging Face en forma preentrenada. Y será más fácil de ejecutar, dice Meta: optimizado para Windows gracias a una asociación ampliada con Microsoft, así como con teléfonos inteligentes y PC que incluyen el sistema en chip Snapdragon de Qualcomm. (Qualcomm dice que está trabajando para llevar Llama 2 a los dispositivos Snapdragon en 2024).

Entonces, ¿en qué se diferencia Llama 2 de Llama? De varias maneras, todas las cuales Meta destaca en un largo papel blanco.

Llama 2 viene en dos sabores, Llama 2 y Llama 2-Chat, el último de los cuales se ajustó para conversaciones bidireccionales. Llama 2 y Llama 2-Chat se subdividen en versiones de sofisticación variable: 7 mil millones de parámetros, 13 mil millones de parámetros y 70 mil millones de parámetros. (“Parámetros” son las partes de un modelo aprendidas a partir de datos de entrenamiento y esencialmente definen la habilidad del modelo en un problema, en este caso generando texto).

Llama 2 se entrenó en dos billones de tokens, donde “tokens” representan texto sin formato, por ejemplo, “fan”, “tas” y “tic” para la palabra “fantástico”. Eso es casi el doble de lo que se entrenó a Llama (1,4 billones) y, en términos generales, cuantos más tokens, mejor en lo que respecta a la IA generativa. El actual modelo insignia de lenguaje grande (LLM) de Google, PaLM 2, fue según se informa entrenado en 3.6 millones de tokens, y se especula que GPT-4 también fue entrenado en billones de tokens.

Meta no revela las fuentes específicas de los datos de capacitación en el documento técnico, excepto que son de la web, principalmente en inglés, no de los propios productos o servicios de la empresa y enfatiza el texto de naturaleza “fáctica”.

Me atrevería a suponer que la renuencia a revelar detalles de entrenamiento tiene sus raíces no solo en razones competitivas, sino también en las controversias legales que rodean a la IA generativa. Justo hoy, miles de autores firmaron una carta instando a las empresas de tecnología a dejar de usar su escritura para la capacitación de modelos de IA sin permiso ni compensación.

Pero yo divago. Meta dice que en una variedad de puntos de referencia, los modelos Llama 2 funcionan ligeramente peor que los rivales de código cerrado de más alto perfil, GPT-4 y PaLM 2, con Llama 2 muy por detrás de GPT-4 en programación de computadoras. Pero los evaluadores humanos consideran que Llama 2 es aproximadamente tan “útil” como ChatGPT, afirma Meta; Llama 2 respondió a la par en un conjunto de aproximadamente 4000 indicaciones diseñadas para probar la “utilidad” y la “seguridad”.

Los modelos Llama 2 de Meta pueden responder preguntas en emoji. Créditos de imagen: Meta

Sin embargo, tome los resultados con pinzas. Meta reconoce que sus pruebas no pueden capturar todos los escenarios del mundo real y que sus puntos de referencia podrían carecer de diversidad; en otras palabras, no cubrir áreas como la codificación y el razonamiento humano lo suficiente.

Meta también admite que Llama 2, como todos los modelos generativos de IA, tiene sesgos en ciertos ejes. Por ejemplo, es propenso a generar pronombres “él” a un ritmo mayor que los pronombres “ella” gracias a los desequilibrios en los datos de entrenamiento. Como resultado del texto tóxico en los datos de entrenamiento, no supera a otros modelos en los puntos de referencia de toxicidad. Y Llama 2 tiene un sesgo occidental, gracias una vez más a los desequilibrios de datos que incluyen una gran cantidad de palabras “cristiano”, “católico” y “judío”.

Los modelos Llama 2-Chat funcionan mejor que los modelos Llama 2 en los puntos de referencia internos de “utilidad” y toxicidad de Meta. Pero también tienden a ser demasiado cautelosos, y los modelos se equivocan al rechazar ciertas solicitudes o responder con demasiados detalles de seguridad.

Para ser justos, los puntos de referencia no tienen en cuenta las capas de seguridad adicionales que podrían aplicarse a los modelos Llama 2 alojados. Como parte de su colaboración con Microsoft, por ejemplo, Meta usa Azure AI Content Safety, un servicio diseñado para detectar contenido “inapropiado” en imágenes y texto generados por IA, para reducir las salidas tóxicas de Llama 2 en Azure.

Siendo este el caso, Meta aún hace todo lo posible por distanciarse de los resultados potencialmente dañinos que involucran a Llama 2, enfatizando en el documento técnico que los usuarios de Llama 2 deben cumplir con los términos de la licencia de Meta y la política de uso aceptable, además de las pautas sobre “desarrollo e implementación seguros”.

“Creemos que compartir abiertamente los grandes modelos de lenguaje actuales también apoyará el desarrollo de una IA generativa útil y más segura”, escribe Meta en una publicación de blog. “Esperamos ver lo que el mundo construye con Llama 2”.

Sin embargo, dada la naturaleza de los modelos de código abierto, no se sabe cómo, o dónde, se pueden usar exactamente los modelos. Con la velocidad del rayo a la que se mueve Internet, no pasará mucho tiempo antes de que lo descubramos.

Source link