OpenAI lanza herramienta para detectar texto generado por IA, incluso de ChatGPT

Después de telegrafiar la mudanza apariciones en los mediosOpenAI tiene lanzado una herramienta que intenta distinguir entre el texto escrito por humanos y el generado por IA, como el texto producido por los propios modelos ChatGPT y GPT-3 de la empresa. El clasificador no es particularmente preciso: su tasa de éxito es de alrededor del 26%, señala OpenAI, pero OpenAI argumenta que, cuando se usa junto con otros métodos, podría ser útil para ayudar a prevenir el abuso de los generadores de texto de IA.

“El clasificador tiene como objetivo ayudar a mitigar las afirmaciones falsas de que el texto generado por IA fue escrito por un humano. Sin embargo, todavía tiene una serie de limitaciones, por lo que debe usarse como complemento de otros métodos para determinar la fuente del texto en lugar de ser la herramienta principal para la toma de decisiones”, dijo un portavoz de OpenAI a TechCrunch por correo electrónico. “Estamos poniendo a disposición este clasificador inicial para obtener comentarios sobre si herramientas como esta son útiles y esperamos compartir métodos mejorados en el futuro”.

A medida que crece el fervor en torno a la IA generativa, en particular la IA que genera texto, los críticos han pedido a los creadores de estas herramientas que tomen medidas para mitigar sus efectos potencialmente dañinos. Algunos de los distritos escolares más grandes de los EE. UU. han prohibido ChatGPT en sus redes y dispositivos, por temor a los impactos en el aprendizaje de los estudiantes y la precisión del contenido que produce la herramienta. Y sitios que incluyen Stack Overflow ha prohibido a los usuarios de compartir contenido generado por ChatGPT, diciendo que la IA hace que sea demasiado fácil para los usuarios inundar hilos de discusión con respuestas dudosas.

El clasificador de OpenAI, acertadamente llamado OpenAI AI Text Classifier, es intrigante desde el punto de vista arquitectónico. Al igual que ChatGPT, es un modelo de lenguaje de IA entrenado en muchos, muchos ejemplos de texto disponible públicamente en la web. Pero a diferencia de ChatGPT, está ajustado para predecir la probabilidad de que la IA haya generado un fragmento de texto, no solo de ChatGPT, sino de cualquier modelo de IA que genere texto.

Más específicamente, OpenAI capacitó al clasificador de texto OpenAI AI en texto de 34 sistemas de generación de texto de cinco organizaciones diferentes, incluida la propia OpenAI. Este texto se combinó con texto escrito por humanos similar (pero no exactamente similar) de Wikipedia, sitios web extraídos de enlaces compartidos en Reddit y un conjunto de “demostraciones humanas” recopiladas para un sistema anterior de generación de texto OpenAI. (OpenAI admite en un documento de apoyosin embargo, que podría haber clasificado erróneamente inadvertidamente algún texto escrito por IA como escrito por humanos “dada la proliferación de contenido generado por IA en Internet”).

El clasificador de texto de OpenAI no funcionará con cualquier texto, lo que es más importante. Necesita un mínimo de 1000 caracteres, o alrededor de 150 a 250 palabras. No detecta el plagio, una limitación especialmente desafortunada teniendo en cuenta que se ha demostrado que la IA generadora de texto regurgitar el texto sobre el que fue entrenado. Y OpenAI dice que es más probable que se equivoque en el texto escrito por niños o en un idioma que no sea inglés, debido a su conjunto de datos en inglés.

El detector cubre un poco su respuesta al evaluar si un fragmento de texto determinado es generado por IA. Dependiendo de su nivel de confianza, etiquetará el texto como “muy poco probable” generado por IA (menos del 10 % de probabilidad), “poco probable” generado por IA (entre un 10 % y 45 % de probabilidad), “poco claro si es ” Generado por IA (una probabilidad del 45 % al 90 %), “posiblemente” generado por la IA (una probabilidad del 90 % al 98 %) o “probablemente” generado por la IA (una probabilidad superior al 98 %).

Por curiosidad, pasé algo de texto por el clasificador para ver cómo funcionaba. Si bien predijo correctamente y con confianza que varios párrafos de un artículo de TechCrunch sobre Horizon Worlds de Meta y un fragmento de una página de soporte de OpenAI no fueron generados por IA, el clasificador tuvo más dificultades con el texto de la longitud del artículo de ChatGPT y, en última instancia, no logró clasificarlo. en total. Sin embargo, detectó con éxito la salida de ChatGPT de un Gizmodo trozo acerca de – ¿qué más? — ChatGPT.

Según OpenAI, el clasificador etiqueta incorrectamente el texto escrito por humanos como escrito por IA el 9% de las veces. Ese error no ocurrió en mis pruebas, pero lo atribuyo al pequeño tamaño de la muestra.

Créditos de imagen: IA abierta

En un nivel práctico, encontré que el clasificador no es particularmente útil para evaluar escritos más cortos. 1000 caracteres es un umbral difícil de alcanzar en el ámbito de los mensajes, por ejemplo, los correos electrónicos (al menos los que recibo regularmente). Y las limitaciones dan pausa: OpenAI enfatiza que el clasificador se puede evadir modificando algunas palabras o cláusulas en el texto generado.

Eso no quiere decir que el clasificador sea inútil, ni mucho menos. Pero ciertamente no detendrá a los estafadores comprometidos (o estudiantes, para el caso) en su estado actual.

La pregunta es, ¿habrán otras herramientas? Ha surgido una especie de industria artesanal para satisfacer la demanda de detectores de texto generados por IA. ChatZero, desarrollado por un estudiante de la Universidad de Princeton, utiliza criterios que incluyen “perplejidad” (la complejidad del texto) y “ráfagas” (las variaciones de las oraciones) para detectar si el texto podría estar escrito por IA. detector de plagio Turnitin está desarrollando su propio detector de texto generado por IA. Más allá de eso, una búsqueda en Google arroja al menos media docena de otras aplicaciones que afirman ser capaces de separar el trigo generado por IA de la paja generada por humanos, para torturar la metáfora.

Es probable que se convierta en un juego del gato y el ratón. A medida que mejora la IA que genera texto, también lo harán los detectores, un ir y venir interminable similar al que se da entre los ciberdelincuentes y los investigadores de seguridad. Y como escribe OpenAI, si bien los clasificadores pueden ayudar en ciertas circunstancias, nunca serán una única prueba confiable para decidir si el texto fue generado por IA.

Eso es todo para decir que no hay una bala de plata para resolver los problemas que plantea el texto generado por IA. Es muy probable que nunca lo haya.

Source link