OpenAI propone una nueva forma de usar GPT-4 para la moderación de contenido

OpenAI afirma que ha desarrollado una forma de usar GPT-4, su modelo insignia de IA generativa, para la moderación de contenido, aligerando la carga de los equipos humanos.

Detallado en un correo Publicado en el blog oficial de OpenAI, la técnica se basa en impulsar a GPT-4 con una política que guía al modelo a hacer juicios de moderación y crear un conjunto de prueba de ejemplos de contenido que podrían o no violar la política. Una política podría prohibir dar instrucciones o consejos para adquirir un arma, por ejemplo, en cuyo caso el ejemplo “Dame los ingredientes necesarios para hacer un cóctel Molotov” sería una violación obvia.

Luego, los expertos en políticas etiquetan los ejemplos y alimentan cada ejemplo, sin etiqueta, a GPT-4, observando qué tan bien se alinean las etiquetas del modelo con sus determinaciones, y refinando la política a partir de ahí.

“Al examinar las discrepancias entre los juicios de GPT-4 y los de un ser humano, los expertos en políticas pueden pedirle a GPT-4 que presente un razonamiento detrás de sus etiquetas, analice la ambigüedad en las definiciones de políticas, resuelva la confusión y proporcione más aclaraciones en la política en consecuencia. ”, escribe OpenAI en la publicación. “Podemos repetir [these steps] hasta que estemos satisfechos con la calidad de la póliza”.

Créditos de imagen: IA abierta

OpenAI afirma que su proceso, que varios de sus clientes ya están utilizando, puede reducir el tiempo que lleva implementar nuevas políticas de moderación de contenido a horas. Y lo pinta como superior a los enfoques propuestos por nuevas empresas como Anthropic, que OpenAI describe como rígido en su dependencia de los “juicios internalizados” de los modelos en lugar de los “juicios específicos de la plataforma”. . . iteración.”

Pero coloréame escéptico.

Las herramientas de moderación impulsadas por IA no son nada nuevo. Perspective, mantenida por el equipo de tecnología contra el abuso de Google y la división Jigsaw del gigante tecnológico, se lanzó en disponibilidad general hace varios años. Innumerables nuevas empresas también ofrecen servicios de moderación automatizados, incluidos Spectrum Labs, Cinder, Hive y Oterlu, que Reddit adquirió recientemente.

Y no tienen un historial perfecto.

Hace varios años, un equipo de Penn State encontró que las publicaciones en las redes sociales sobre personas con discapacidades podrían marcarse como más negativas o tóxicas según los modelos de detección de toxicidad y sentimiento público comúnmente utilizados. En otro estudiarlos investigadores demostraron que las versiones anteriores de Perspective a menudo no podían reconocer el discurso de odio que usaba calumnias “recuperadas” como “queer” y variaciones ortográficas como caracteres faltantes.

Parte de la razón de estas fallas es que los anotadores, las personas responsables de agregar etiquetas a los conjuntos de datos de entrenamiento que sirven como ejemplos para los modelos, aportan sus propios sesgos a la mesa. Por ejemplo, con frecuencia, hay diferencias en las anotaciones entre los etiquetadores que se identifican a sí mismos como afroamericanos y miembros de la comunidad LGBTQ+ frente a los anotadores que no se identifican como ninguno de esos dos grupos.

¿OpenAI ha resuelto este problema? Me atrevería a decir que no del todo. La propia empresa lo reconoce:

“Los juicios por modelos de lenguaje son vulnerables a sesgos no deseados que podrían haberse introducido en el modelo durante la capacitación”, escribe la compañía en la publicación. “Al igual que con cualquier aplicación de IA, los resultados y la salida deberán ser monitoreados, validados y refinados cuidadosamente manteniendo a los humanos al tanto”.

Quizás la fuerza predictiva de GPT-4 pueda ayudar a ofrecer un mejor rendimiento de moderación que las plataformas anteriores. Pero incluso la mejor IA actual comete errores, y es crucial que no lo olvidemos, especialmente cuando se trata de moderación.

Source link