A menudo se dice que los modelos de lenguaje grande (LLM) en la línea de ChatGPT de OpenAI son una caja negra, y ciertamente, hay algo de verdad en eso. Incluso para los científicos de datos, es difícil saber por qué, siempre, un modelo responde de la forma en que lo hace, como si inventara hechos de la nada.
En un esfuerzo por eliminar las capas de los LLM, OpenAI está desarrollando una herramienta para identificar automáticamente qué partes de un LLM son responsables de cuál de sus comportamientos. Los ingenieros detrás de él enfatizan que está en las primeras etapas, pero el código para ejecutarlo está disponible en código abierto en GitHub a partir de esta mañana.
“Estamos tratando de [develop ways to] anticipar cuáles serán los problemas con un sistema de IA”, dijo William Saunders, gerente del equipo de interpretabilidad de OpenAI, a TechCrunch en una entrevista telefónica. “Queremos realmente poder saber que podemos confiar en lo que está haciendo el modelo y la respuesta que produce”.
Con ese fin, la herramienta de OpenAI utiliza un modelo de lenguaje (irónicamente) para descubrir las funciones de los componentes de otros LLM arquitectónicamente más simples, específicamente el propio GPT-2 de OpenAI.
La herramienta de OpenAI intenta simular los comportamientos de las neuronas en un LLM. Créditos de imagen: IA abierta
¿Cómo? Primero, una explicación rápida sobre los LLM para los antecedentes. Al igual que el cerebro, están formados por “neuronas”, que observan un patrón específico en el texto para influir en lo que “dice” el modelo general a continuación. Por ejemplo, ante un mensaje sobre superhéroes (p. ej., “¿Qué superhéroes tienen los superpoderes más útiles?”), una “neurona de superhéroe de Marvel” podría aumentar la probabilidad de que el modelo nombre superhéroes específicos de las películas de Marvel.
La herramienta de OpenAI explota esta configuración para dividir los modelos en sus piezas individuales. Primero, la herramienta ejecuta secuencias de texto a través del modelo que se está evaluando y espera los casos en los que una neurona en particular se “activa” con frecuencia. A continuación, “muestra” GPT-4, el último modelo de IA de generación de texto de OpenAI, estas neuronas altamente activas y GPT-4 genera una explicación. Para determinar qué tan precisa es la explicación, la herramienta proporciona a GPT-4 secuencias de texto y hace que prediga o simule cómo se comportaría la neurona. Luego compara el comportamiento de la neurona simulada con el comportamiento de la neurona real.
“Usando esta metodología, básicamente podemos, para cada neurona, generar algún tipo de explicación preliminar en lenguaje natural de lo que está haciendo y también tener una puntuación de qué tan bien esa explicación coincide con el comportamiento real”, Jeff Wu, quien dirige dijo el equipo de alineación escalable de OpenAI. “Usamos GPT-4 como parte del proceso para producir explicaciones de lo que busca una neurona y luego calificar qué tan bien esas explicaciones coinciden con la realidad de lo que está haciendo”.
Los investigadores pudieron generar explicaciones para las 307.200 neuronas en GPT-2, que compilaron en un conjunto de datos que se publicó junto con el código de la herramienta.
Herramientas como esta podrían usarse algún día para mejorar el rendimiento de un LLM, dicen los investigadores, por ejemplo, para reducir el sesgo o la toxicidad. Pero reconocen que tiene un largo camino por recorrer antes de que sea realmente útil. La herramienta confiaba en sus explicaciones para unas 1.000 de esas neuronas, una pequeña fracción del total.
Una persona cínica también podría argumentar que la herramienta es esencialmente un anuncio de GPT-4, dado que requiere GPT-4 para funcionar. Otras herramientas de interpretación de LLM dependen menos de las API comerciales, como DeepMind. rastrearun compilador que traduce programas en modelos de redes neuronales.
Wu dijo que ese no es el caso, el hecho de que la herramienta use GPT-4 es meramente “incidental” y, por el contrario, muestra las debilidades de GPT-4 en esta área. También dijo que no se creó con aplicaciones comerciales en mente y, en teoría, podría adaptarse para usar LLM además de GPT-4.
La herramienta identifica las neuronas que se activan a través de capas en el LLM. Créditos de imagen: IA abierta
“La mayoría de las explicaciones obtienen una puntuación bastante baja o no explican gran parte del comportamiento de la neurona real”, dijo Wu. “Muchas de las neuronas, por ejemplo, están activas de una manera en la que es muy difícil saber qué está pasando, como si se activaran en cinco o seis cosas diferentes, pero no hay un patrón perceptible. A veces hay un patrón perceptible, pero GPT-4 no puede encontrarlo”.
Eso sin mencionar modelos más complejos, más nuevos y más grandes, o modelos que pueden navegar por la web para obtener información. Pero en ese segundo punto, Wu cree que la navegación web no cambiaría mucho los mecanismos subyacentes de la herramienta. Simplemente podría modificarse, dice, para descubrir por qué las neuronas deciden hacer ciertas consultas en los motores de búsqueda o acceder a sitios web particulares.
“Esperamos que esto abra una vía prometedora para abordar la interpretabilidad de una manera automatizada en la que otros puedan desarrollar y contribuir”, dijo Wu. “La esperanza es que realmente tengamos buenas explicaciones no solo de a qué responden las neuronas sino, en general, del comportamiento de estos modelos: qué tipo de circuitos están computando y cómo ciertas neuronas afectan a otras neuronas”.
Source link