Anthropic cree que la 'IA constitucional' es la mejor manera de entrenar modelos

Anthropic cree que la ‘IA constitucional’ es la mejor manera de entrenar modelos

antrópicouna startup que espera recaudar $ 5 mil millones en los próximos cuatro años para entrenar poderosos sistemas de IA generadores de texto como ChatGPT de OpenAI, abrió hoy el telón de su enfoque para crear esos sistemas.

Apodada “IA constitucional”, Anthropic argumenta que su técnica, que tiene como objetivo imbuir a los sistemas con “valores” definidos por una “constitución”, hace que el comportamiento de los sistemas sea más fácil de entender y más simple de ajustar según sea necesario.

“Los modelos de IA tendrán sistemas de valores, ya sean intencionales o no”, escribe Anthropic en una publicación de blog publicada esta mañana. “La IA constitucional responde a las deficiencias mediante el uso de comentarios de IA para evaluar los resultados”.

Como lo ilustran coloridamente sistemas como ChatGPT y GPT-4, la IA, en particular la IA que genera texto, tiene fallas masivas. Debido a que a menudo se entrena en fuentes de Internet cuestionables (por ejemplo, las redes sociales), a menudo está sesgado de manera obviamente sexista y racista. Y alucina —o inventa— respuestas a preguntas más allá del alcance de su conocimiento.

En un esfuerzo por abordar estos problemas, la IA constitucional de Anthropic proporciona a un sistema un conjunto de principios para emitir juicios sobre el texto que genera. En un alto nivel, estos principios guían al modelo para adoptar el comportamiento que describen (por ejemplo, “no tóxico” y “útil”).

Anthropic usa los principios, o la constitución, por así decirlo, en dos lugares mientras entrena un modelo de generación de texto. Primero, entrena a un modelo para criticar y revisar sus propias respuestas utilizando los principios y algunos ejemplos del proceso. Luego, entrena otro modelo, el modelo final, utilizando los comentarios generados por IA basados ​​en el primer modelo más el conjunto de principios.

Ninguno de los modelos analiza todos los principios cada vez. Pero ven cada principio “muchas veces” durante el entrenamiento, dice Anthropic.

El enfoque de IA constitucional de Anthropic para los modelos de entrenamiento. Créditos de imagen: antrópico

Anthropic argumenta que esto es superior al método utilizado para entrenar sistemas como ChatGPT, que se basa en contratistas humanos que comparan dos respuestas de un modelo y seleccionan la que consideran mejor de acuerdo con algún principio. La retroalimentación humana no escala bien, argumenta Anthropic, y requiere mucho tiempo y recursos.

OpenAI y otros que han invertido mucho en modelos desarrollados con comentarios humanos no estarían de acuerdo. Pero al punto de Anthropic, la calidad y la consistencia de la retroalimentación pueden variar según la tarea y las preferencias de las personas involucradas. ¿Es el enfoque de Anthropic menos sesgado porque los diseñadores del modelo, no los contratistas, dieron forma a los valores del modelo? Talvez no. Sin embargo, la empresa da a entender que sí lo es, o que, como mínimo, es menos propensa a errores.

La IA constitucional también es más transparente, afirma Anthropic, porque es más fácil inspeccionar los principios que sigue un sistema, así como entrenarlo sin necesidad de que los humanos revisen el contenido perturbador. Eso es un golpe contra OpenAI, que ha sido criticado en el pasado reciente por pagar menos a los trabajadores contratados para filtrar datos tóxicos de los datos de capacitación de ChatGPT, incluidos detalles gráficos como el abuso sexual infantil y el suicidio.

Entonces, ¿cuáles son estos principios, exactamente? Anthropic dice que los que usa para entrenar los sistemas de IA provienen de una variedad de fuentes, incluida la Declaración de Derechos Humanos de la ONU, publicada en 1948. Más allá de eso, Anthropic optó por incluir “valores inspirados en las pautas de la plataforma global”, dice, como Apple. términos de servicio (que dice “reflejan los esfuerzos para abordar los problemas encontrados por usuarios reales en un… dominio digital”) y valores identificados por laboratorios de IA como Google DeepMind.

Algunos incluyen:

Elija la respuesta que tenga la menor objeción, ofensiva, ilegal, engañosa,
contenido inexacto o dañino. Elija la respuesta que utilice menos estereotipos u otras afirmaciones generalizadoras dañinas
sobre grupos de personas, incluidas menos microagresiones. Elija la respuesta que menos dé la impresión de dar un consejo legal específico; en cambio
Sugiero consultar a un abogado. (Pero está bien responder preguntas generales sobre la ley).

Al crear su constitución, Anthropic dice que buscó capturar valores en su constitución que no son estrictamente de culturas occidentales, ricas o industrializadas. Ese es un punto importante. La investigación ha demostrado que los países más ricos disfrutan de representaciones más ricas en los modelos de lenguaje porque el contenido de, o sobre, los países más pobres aparece con menos frecuencia en los datos de entrenamiento, por lo que los modelos no hacen grandes predicciones sobre ellos y, a veces, los borran por completo.

“Nuestros principios van desde el sentido común (no ayudar a un usuario a cometer un delito) hasta el más filosófico (evitar dar a entender que los sistemas de IA tienen o se preocupan por la identidad personal y su persistencia)”, escribe Anthropic. “Si el modelo muestra algún comportamiento que no le gusta, normalmente puede intentar escribir un principio para desalentarlo”.

Para su crédito, Anthropic no afirma que la IA constitucional sea el final de todos los enfoques de capacitación de IA; la compañía admite que desarrolló muchos de sus principios a través de un proceso de “prueba y error”. A veces, tenía que agregar principios para evitar que un modelo se volviera demasiado “crítico” o “molesto”. Otras veces, tuvo que ajustar los principios para que un sistema fuera más general en sus respuestas.

Pero Anthropic cree que la IA constitucional es una de las formas más prometedoras de alinear los sistemas con objetivos específicos.

“Desde nuestra perspectiva, nuestro objetivo a largo plazo no es intentar que nuestros sistemas representen una ideología específica, sino ser capaces de seguir un conjunto determinado de principios”, continúa Anthropic. “Esperamos que con el tiempo se desarrollen procesos sociales más amplios para la creación de constituciones de IA”.

Anthropic dice que para su modelo insignia, Claude, que se lanzó recientemente a través de una API, planea explorar formas de producir una constitución “más democráticamente” y ofrecer constituciones personalizables para casos de uso específicos.

Como informamos anteriormente, la ambición de Anthropic es crear un “algoritmo de próxima generación para el autoaprendizaje de IA”, como lo describe en una presentación a los inversores. Dicho algoritmo podría usarse para crear asistentes virtuales que puedan responder correos electrónicos, realizar investigaciones y generar arte, libros y más, algunos de los cuales ya hemos probado con GPT-4 y otros modelos de lenguaje grandes.

Anthropic compite con OpenAI, así como con nuevas empresas como Cohere y AI21 Labs, todas las cuales están desarrollando y produciendo sus propios sistemas de IA de generación de texto y, en algunos casos, de generación de imágenes. Google se encuentra entre los inversionistas de la compañía, habiendo prometido $300 millones en Anthropic por una participación del 10% en la startup.


Source link