Medium insinúa una incipiente coalición de medios para bloquear los rastreadores de IA

Sep 28, 2023

—

por

La plataforma de publicación web Medium ha anunciado que bloqueará GPTBot de OpenAI, un agente que extrae páginas web en busca de contenido utilizado para entrenar los modelos de IA de la empresa. Pero la verdadera noticia puede ser que un grupo de plataformas pronto forme un frente unificado contra lo que muchos consideran una explotación de su contenido.

Medium se une a CNN, The New York Times y muchos otros medios de comunicación (aunque todavía no a TechCrunch) para agregar “User-Agent: GPTBot” a la lista de agentes no permitidos en su robots.txt. Este es un documento que se encuentra en muchos sitios y que informa a los rastreadores e indexadores, los sistemas automatizados que escanean constantemente la web, si ese sitio acepta o no ser escaneado. Si por algún motivo prefiere no ser indexado en Google, por ejemplo, puede indicarlo en su archivo robots.txt.

Los fabricantes de IA hacen más que indexar, por supuesto: extraen los datos para usarlos como material fuente para sus modelos. Pocos están contentos con esto, y menos aún el CEO de Medium, Tony Stubblebine. quien escribe:

No soy un enemigo, pero también quiero dejar claro que el estado actual de la IA generativa no es un beneficio neto para Internet.

Están ganando dinero con sus escritos sin pedir su consentimiento, ni le ofrecen compensación ni crédito… Las empresas de inteligencia artificial han lixiviado valor de los escritores para enviar spam a los lectores de Internet.

Por lo tanto, escribe, Medium está por defecto diciéndole a OpenAI que haga una caminata cuando su raspador toque la puerta. (Es uno de los pocos que respetará esa solicitud).

Sin embargo, se apresura a admitir que no es probable que este enfoque esencialmente voluntario afecte las acciones de los spammers y otras personas que simplemente ignorarán la solicitud. Aunque también existe la posibilidad de tomar medidas activas (por ejemplo, envenenar sus datos dirigiendo a rastreadores tontos a contenido falso), de ahí surge la escalada, los gastos y posibles demandas judiciales. Siempre con los pleitos.

Pero hay esperanza. Stubblebine escribe:

El medio no está solo. Estamos reclutando activamente para una coalición de otras plataformas para ayudar a descubrir el futuro del uso legítimo en la era de la IA.

he hablado con , , , y . Estas son las grandes organizaciones que probablemente puedas adivinar, pero no están preparadas para trabajar juntas públicamente.

Otros enfrentan el mismo problema y, como tantas cosas en tecnología, más personas alineadas en un estándar o plataforma crea un efecto de red y mejora el resultado para todos. Una coalición de grandes organizaciones sería un poderoso contrapeso a las plataformas de IA sin escrúpulos.

¿Qué los detiene? Desafortunadamente, las asociaciones multisectoriales en general tardan en desarrollarse por todas las razones que se puedan imaginar. Según los estándares editoriales y de derechos de autor, la IA es absolutamente nueva y hay innumerables preguntas legales y éticas sin respuestas claras, y mucho menos respuestas resueltas y ampliamente aceptadas.

¿Cómo se puede aceptar una asociación para la protección de la propiedad intelectual cuando la definición de propiedad intelectual y derechos de autor cambia? ¿Cómo se puede prohibir el uso de la IA cuando su junta directiva está presionando para encontrar formas de utilizarla en beneficio de la empresa?

Puede que sea necesario un gorila de Internet de 400 kilos como Wikipedia para dar un primer paso audaz y romper el hielo. Otras organizaciones pueden verse paralizadas por preocupaciones comerciales, pero hay otras que no están comprometidas por tales cosas y que pueden salir adelante con seguridad sin temor a decepcionar a los accionistas. Pero hasta que alguien dé un paso al frente, permaneceremos a merced de los rastreadores, que respetan o ignoran nuestro consentimiento a su antojo.

Source link