Junto con GPT-4, OpenAI ha creado un marco de software de código abierto para evaluar el rendimiento de sus modelos de IA. Llamado EvaluacionesOpenAI dice que las herramientas permitirán que cualquier persona informe las deficiencias en sus modelos para ayudar a guiar las mejoras.
Es una especie de enfoque de crowdsourcing para la prueba de modelos, explica OpenAI en un entrada en el blog.
“Usamos Evals para guiar el desarrollo de nuestros modelos (tanto para identificar deficiencias como para prevenir regresiones), y nuestros usuarios pueden aplicarlo para realizar un seguimiento del rendimiento en todas las versiones del modelo y la evolución de las integraciones de productos”, escribe OpenAI. “Esperamos que Evals se convierta en un vehículo para compartir puntos de referencia de crowdsourcing, que represente un conjunto máximo de modos de falla y tareas difíciles”.
OpenAI creó Evals para desarrollar y ejecutar puntos de referencia para evaluar modelos como GPT-4 mientras se inspecciona su rendimiento. Con Evals, los desarrolladores pueden usar conjuntos de datos para generar avisos, medir la calidad de las finalizaciones proporcionadas por un modelo OpenAI y comparar el rendimiento en diferentes conjuntos de datos y modelos.
Evals, que es compatible con varios puntos de referencia populares de IA, también admite la escritura de nuevas clases para implementar una lógica de evaluación personalizada. Como ejemplo a seguir, OpenAI creó una evaluación de acertijos lógicos que contiene 10 indicaciones donde falla GPT-4.
Es todo trabajo no remunerado, muy lamentablemente. Pero para incentivar el uso de Evals, OpenAI planea otorgar acceso a GPT-4 a aquellos que contribuyen con puntos de referencia de “alta calidad”.
“Creemos que Evals será una parte integral del proceso para usar y construir sobre nuestros modelos, y agradecemos las contribuciones directas, las preguntas y los comentarios”, escribió la compañía.
Con Evals, OpenAI, que recientemente dijo que dejaría de usar los datos de los clientes para entrenar sus modelos de forma predeterminada, está siguiendo los pasos de otros que recurrieron al crowdsourcing para fortalecer los modelos de IA.
En 2017, el Laboratorio de Lingüística Computacional y Procesamiento de la Información de la Universidad de Maryland lanzó una plataforma denominada Break It, Build It, que permite a los investigadores enviar modelos a los usuarios con la tarea de encontrar ejemplos para vencerlos. Y Meta mantiene una plataforma llamada Dynabench que tiene modelos “engañados” para los usuarios diseñados para analizar sentimientos, responder preguntas, detectar discursos de odio y más.
Source link