Los casos legales actuales contra la IA generativa son solo el comienzo

A medida que la IA generativa entra en la corriente principal, cada nuevo día trae una nueva demanda.

Microsoft, GitHub y OpenAI están siendo actualmente demandado en un moción de acción de clase que los acusa de violar la ley de derechos de autor al permitir que Copilot, un sistema de IA generador de código entrenado en miles de millones de líneas de código público, regurgite fragmentos de código con licencia sin proporcionar crédito.

Dos compañías detrás de las populares herramientas de arte de IA, MidJourney y Stability AI, están en la mira de un Caso legal que alega que infringieron los derechos de millones de artistas al entrenar sus herramientas en imágenes extraídas de la web.

Y la semana pasada, el proveedor de imágenes de archivo Getty Images llevó a Stability AI a los tribunales por según se informa usando millones de imágenes de su sitio sin permiso para entrenar Stable Diffusion, una IA generadora de arte.

El problema, principalmente, es la tendencia de la IA generativa a replicar imágenes, texto y más, incluido el contenido con derechos de autor, a partir de los datos que se usaron para entrenarlo. en un reciente Por ejemplo, se descubrió que una herramienta de inteligencia artificial utilizada por CNET para escribir artículos explicativos había plagiado artículos escritos por humanos, artículos presumiblemente barridos en su conjunto de datos de entrenamiento. Mientras tanto, un estudio académico publicado en diciembre encontró que los modelos de IA generadores de imágenes como DALL-E 2 y Stable Diffusion pueden y lo hacen replicar aspectos de las imágenes a partir de sus datos de entrenamiento.

El espacio de IA generativa se mantiene saludable: recaudó $ 1.3 mil millones en fondos de riesgo hasta noviembre de 2022. de acuerdo a a Pitchbook, un 15% más que el año anterior. Pero las cuestiones legales están empezando a afectar a los negocios.

Algunas plataformas de alojamiento de imágenes han prohibido el contenido generado por IA por temor a retrocesos legales. Y varios expertos legales han advertido que las herramientas de IA generativa podrían poner en riesgo a las empresas si involuntariamente incorporaran contenido protegido por derechos de autor generado por las herramientas en cualquiera de los productos que venden.

“Desafortunadamente, espero una avalancha de litigios para casi todos los productos de IA generativa”, dijo Heather Meeker, experta legal en licencias de software de código abierto y socia general de OSS Capital, a TechCrunch por correo electrónico. “La ley de derechos de autor necesita ser aclarada”.

Los creadores de contenido como el artista polaco Greg Rutkowski, conocido por crear paisajes de fantasía, se han convertido en el rostro de las campañas que protestan por el trato que reciben los artistas por parte de las nuevas empresas de inteligencia artificial generativa. Rutkowski se ha quejado del hecho de que escribir texto como “Mago con espada y un orbe brillante de fuego mágico lucha contra un dragón feroz Greg Rutkowski” creará una imagen que se parece mucho a su trabajo original, lo que amenaza sus ingresos.

Dado que la IA generativa no va a ninguna parte, ¿qué sigue? ¿Qué casos legales tienen mérito y qué batallas judiciales se vislumbran en el horizonte?

Eliana Torres, abogada de propiedad intelectual de Nixon Peabody, dice que las acusaciones de la demanda colectiva contra Stability AI, MidJourney y DeviantArt serán difíciles de probar en los tribunales. En particular, cree que será difícil determinar qué imágenes se usaron para entrenar los sistemas de IA porque el arte que generan los sistemas no necesariamente se verá exactamente como ninguna de las imágenes de entrenamiento.

Los sistemas de generación de imágenes de última generación como Stable Diffusion son lo que se conoce como modelos de “difusión”. Los modelos de difusión aprenden a crear imágenes a partir de indicaciones de texto (p. ej., “un boceto de un pájaro posado en el alféizar de una ventana”) a medida que avanzan a través de conjuntos de datos de entrenamiento masivos. Los modelos están capacitados para “recrear” imágenes en lugar de dibujarlas desde cero, comenzando con ruido puro y refinando la imagen con el tiempo para que se acerque cada vez más al mensaje de texto.

Las recreaciones perfectas no ocurren a menudo, al punto de Torres. En cuanto a las imágenes con el estilo de un artista en particular, el estilo ha resultado casi imposible de proteger con derechos de autor.

“Será… un desafío obtener una aceptación general de la definición de ‘al estilo de’ como ‘una obra que otros aceptarían como una obra creada por ese artista cuyo estilo fue invocado’, que se menciona en la demanda. [i.e. against Stability AI et al]”, dijo Torres a TechCrunch en una entrevista por correo electrónico.

Torres también cree que la demanda no debe dirigirse a los creadores de estos sistemas de IA, sino a la parte responsable de compilar las imágenes utilizadas para entrenarlos: la Red Abierta de Inteligencia Artificial a Gran Escala (LAION), una organización sin fines de lucro. MidJourney, DeviantArt y Stability AI usan datos de entrenamiento de los conjuntos de datos de LAION, que abarcan miles de millones de imágenes de toda la web.

“Si LAION creó el conjunto de datos, entonces la supuesta infracción ocurrió en ese momento, no una vez que el conjunto de datos se usó para entrenar los modelos”, dijo Torres. “Es de la misma manera que un ser humano puede entrar a una galería y mirar pinturas, pero no se le permite tomar fotos”.

Compañías como Stability AI y OpenAI, la compañía detrás de ChatGPT ahora valorada en $ TKTK, han afirmado durante mucho tiempo que el “uso justo” los protege en caso de que sus sistemas hayan sido entrenados en contenido con licencia. Esta doctrina consagrada en la ley de los EE. UU. permite el uso limitado de material protegido por derechos de autor sin tener que obtener primero el permiso del titular de los derechos.

Los partidarios señalan casos como Authors Guild v. Google, en el que la Corte de Apelaciones del Segundo Circuito de los EE. UU. con sede en Nueva York dictaminó que Google escaneaba manualmente millones de libros con derechos de autor sin una licencia para crear su proyecto de búsqueda de libros era un uso justo. Lo que constituye un uso justo se cuestiona y revisa constantemente, pero en el ámbito de la IA generativa, es una teoría especialmente no probada.

Un reciente artículo en Bloomberg Law afirma que el éxito de una defensa de uso justo dependerá de si las obras generadas por la IA se consideran transformadoras; en otras palabras, si utilizan las obras protegidas por derechos de autor de una manera que varíe significativamente de los originales. La jurisprudencia anterior, en particular la decisión Google v. Oracle de la Corte Suprema de 2021, sugiere que el uso de datos recopilados para crear nuevas obras puede ser transformador. En ese caso, se consideró que el uso de partes del código Java SE por parte de Google para crear su sistema operativo Android era un uso legítimo.

Curiosamente, otros países han señalado un movimiento hacia un uso más permisivo del contenido disponible públicamente, con derechos de autor o no. Por ejemplo, el Reino Unido está planeando modificar una ley existente para permitir la extracción de texto y datos “para cualquier propósito”, alejando el equilibrio de poder de los titulares de derechos y en gran medida hacia las empresas y otras entidades comerciales. Sin embargo, no ha habido apetito por adoptar tal cambio en los EE. UU., y Torres no espera que eso cambie pronto, si es que lo hace alguna vez.

Transición TKTK (más matizada que…)

El caso Getty tiene un poco más de matices. Getty, que Torres señala que aún no ha presentado una queja formal, debe mostrar los daños y conectar cualquier infracción que alegue con imágenes específicas. Pero la declaración de Getty menciona que no tiene ningún interés en los daños financieros y simplemente busca un “nuevo statu quo legal”.

Andrew Burt, uno de los fundadores del bufete de abogados centrado en la IA BNH.ai, no está de acuerdo con Torres en la medida en que cree que las demandas generativas de IA centradas en cuestiones de propiedad intelectual serán “relativamente sencillas”. En su opinión, si se usaron datos protegidos por derechos de autor para entrenar sistemas de IA, ya sea debido a restricciones de privacidad o propiedad intelectual, esos sistemas deberían y estarán sujetos a multas u otras sanciones.

Burt señaló que la Comisión Federal de Comercio (FTC) ya está siguiendo este camino con lo que llama “degüelle algorítmico”, donde obliga a las empresas tecnológicas a eliminar los algoritmos problemáticos junto con los datos obtenidos de forma ilícita que usaron para entrenarlos. En un ejemplo reciente, la FTC usó el remedio de la devolución algorítmica para obligar a Everalbum, el fabricante de una aplicación móvil ahora desaparecida llamada Ever, a eliminar los algoritmos de reconocimiento facial que la compañía desarrolló usando contenido subido por personas que usaron su aplicación. (Everalbum no dejó en claro que los datos de los usuarios se estaban utilizando para este propósito).

“Esperaría que los sistemas de IA generativa no sean diferentes de los sistemas de IA tradicionales de esta manera”, dijo Burt.

¿Qué deben hacer las empresas, entonces, en ausencia de precedentes y orientación? Torres y Burt coinciden en que no hay una respuesta obvia.

Por su parte, Torres recomienda mirar de cerca los términos de uso de cada sistema comercial de IA generativa. Ella señala que MidJourney tiene diferentes derechos para los usuarios pagados y no pagados, mientras que DALL-E de OpenAI asigna derechos sobre el arte generado a los usuarios al mismo tiempo que les advierte sobre “contenido similar” y alienta la debida diligencia para evitar infracciones.

“Las empresas deben conocer los términos de uso y actuar con la diligencia debida, como realizar búsquedas inversas de imágenes del trabajo generado destinado a ser utilizado comercialmente”, agregó.

Burt recomienda que las empresas adopten marcos de gestión de riesgos como el Marco de Gestión de Riesgos de IA publicado por el Instituto Nacional de Estándares y Tecnología, que brinda orientación sobre cómo abordar y mitigar los riesgos en el diseño y uso de sistemas de IA. También sugiere que las empresas prueben y supervisen continuamente sus sistemas en busca de posibles responsabilidades legales.

“Si bien los sistemas de IA generativa hacen que la gestión de riesgos de IA sea más difícil, para ser justos, es mucho más sencillo monitorear un sistema de IA que hace predicciones binarias de riesgos, hay acciones concretas que se pueden tomar”, dijo Burt.

Algunas empresas, bajo la presión de activistas y creadores de contenido, han dado pasos en la dirección correcta. Stability AI planea permitir a los artistas optar por no participar en el conjunto de datos utilizado para entrenar el modelo Stable Diffusion de próxima generación. A través del sitio web HaveIBeenTrained.com, los titulares de derechos podrán solicitar la exclusión voluntaria antes de que comience la capacitación dentro de unas semanas. Rival OpenAI no ofrece tal mecanismo de exclusión voluntaria, pero la empresa se ha asociado con organizaciones como Shutterstock para otorgar licencias a partes de sus galerías de imágenes.

Para Copilot, GitHub introdujo un filtro que verifica las sugerencias de código con su código circundante de aproximadamente 150 caracteres con el código público de GitHub y oculta las sugerencias si hay una coincidencia o una “casi coincidencia”. Es una medida imperfecta: habilitar el filtro puede hacer que Copilot omita piezas clave de atribución y texto de licencia, pero GitHub ha dicho que planea introducir funciones adicionales en 2023 destinadas a ayudar a los desarrolladores a tomar decisiones informadas sobre si utilizar las sugerencias de Copilot.

Tomando la perspectiva de diez mil pies, Burt cree que la IA generativa se está implementando cada vez más sin comprender cómo abordar sus peligros. Elogia los esfuerzos para combatir los problemas obvios, como el uso de obras con derechos de autor para capacitar a los generadores de contenido. Pero advierte que la opacidad de los sistemas ejercerá presión sobre las empresas para evitar que los sistemas causen estragos y tener un plan para abordar los riesgos de los sistemas antes de que se liberen.

“Los modelos generativos de IA se encuentran entre los usos más emocionantes y novedosos de la IA, con el claro potencial de transformar la ‘economía del conocimiento’”, dijo. “Al igual que con la IA en muchas otras áreas, la tecnología está en gran parte ahí y lista para usar. Lo que aún no está maduro son las formas de gestionar todos sus riesgos. Sin una evaluación y una gestión cuidadosas y maduras de los daños de estos sistemas, corremos el riesgo de implementar una tecnología antes de que comprendamos cómo evitar que cause daños”.

Meeker es más pesimista y argumenta que no todas las empresas, independientemente de las mitigaciones que emprendan, podrán asumir los costos legales asociados con la IA generativa. Esto apunta a la necesidad urgente de aclaración o cambios en la ley de derechos de autor, dice.

“Si los desarrolladores de IA no saben qué datos pueden usar para entrenar modelos, la tecnología podría retrasarse por años”, dijo Meeker. “En cierto sentido, no hay nada que puedan hacer, porque si las empresas no pueden entrenar modelos legalmente con materiales disponibles gratuitamente, no tendrán suficientes datos para entrenar los modelos. Solo existen varias soluciones a largo plazo, como modelos de inclusión o exclusión voluntaria, o sistemas que agregan regalías para el pago a todos los autores… Las demandas contra las empresas de inteligencia artificial por ingerir material protegido por derechos de autor para entrenar modelos son potencialmente paralizantes para la industria. [and] podría causar una consolidación que limitaría la innovación”.

Source link