Esta semana, OpenAI otorgó a los usuarios de su sistema de IA de generación de imágenes, DALL-E 2, el derecho de usar sus generaciones para proyectos comerciales, como ilustraciones para libros infantiles y arte para boletines. La medida tiene sentido, dados los propios objetivos comerciales de OpenAI: el cambio de política coincidió con el lanzamiento de los planes pagos de la compañía para DALL-E 2. Pero plantea dudas sobre las implicaciones legales de IA como DALL-E 2, entrenada en imágenes públicas en torno a la web, y su potencial para infringir los derechos de autor existentes.
DALL-E 2 “entrenó” en aproximadamente 650 millones de pares de imagen y texto extraídos de Internet, aprendiendo de ese conjunto de datos las relaciones entre las imágenes y las palabras utilizadas para describirlas. Pero mientras OpenAI filtró imágenes para contenido específico (por ejemplo, pornografía y duplicados) e implementó filtros adicionales a nivel de API, por ejemplo para figuras públicas destacadas, la empresa admite que el sistema a veces puede crear obras que incluyan logotipos o personajes de marcas registradas. Ver:
“OpenAI evaluará diferentes enfoques para manejar posibles problemas de derechos de autor y marcas registradas, que pueden incluir permitir tales generaciones como parte del ‘uso justo’ o conceptos similares, filtrar tipos específicos de contenido y trabajar directamente con los derechos de autor. [and] propietarios de marcas registradas sobre estos temas”, la compañía escribió en un análisis publicado antes del lanzamiento beta de DALL-E 2 el miércoles.
No es solo un problema de DALL-E 2. A medida que la comunidad de IA crea implementaciones de código abierto de DALL-E 2 y su predecesor, DALL-E, ambos libre y pagado servicios se están lanzando sobre modelos entrenados en conjuntos de datos filtrados con menos cuidado. Una, pixelz.aique lanzó una aplicación de generación de imágenes esta semana impulsada por un modelo DALL-E personalizado, hace que sea trivialmente fácil crear fotos que muestren varios personajes de Pokémon y Disney de películas como Guardianes de la Galaxia y Frozen.
Cuando se contactó para hacer comentarios, el equipo de Pixelz.ai le dijo a TechCrunch que filtraron los datos de entrenamiento del modelo por blasfemias, discursos de odio y “actividades ilegales” y bloquearon a los usuarios para que no soliciten ese tipo de imágenes en el momento de la generación. La compañía también dijo que planea agregar una función de informes que permitirá a las personas enviar imágenes que violen los términos de servicio a un equipo de moderadores humanos. Pero en lo que se refiere a la propiedad intelectual (IP), Pixelz.ai deja que los usuarios ejerzan la “responsabilidad” en el uso o distribución de las imágenes que generan, con área gris o sin ella.
“Desalentamos la infracción de derechos de autor tanto en el conjunto de datos como en los términos de servicio de nuestra plataforma”, dijo el equipo a TechCrunch. “Dicho esto, proporcionamos una entrada de texto abierto y las personas siempre encontrarán formas creativas de abusar de una plataforma”.
Una imagen de Rocket Racoon de Guardianes de la Galaxia de Disney/Marvel, generada por el sistema de Pixelz.ai.
Bradley J. Hulbert, socio fundador del bufete de abogados MBHD y experto en derecho de propiedad intelectual, cree que los sistemas de generación de imágenes son problemáticos desde la perspectiva de los derechos de autor en varios aspectos. Señaló que las obras de arte que se “derivan demostrablemente” de una “obra protegida”, es decir, un personaje protegido por derechos de autor, generalmente han sido declaradas por los tribunales como infractoras, incluso si se agregaron elementos adicionales. (Piense en una imagen de una princesa de Disney caminando por un barrio arenoso de Nueva York). Para protegerse de reclamos de derechos de autor, el trabajo debe ser “transformador”, en otras palabras, debe cambiar hasta tal punto que la propiedad intelectual no sea reconocible. .
“Si una princesa de Disney es reconocible en una imagen generada por DALL-E 2, podemos suponer con seguridad que The Walt Disney Co. probablemente afirmará que la imagen de DALL-E 2 es un trabajo derivado y una infracción de sus derechos de autor en Disney. semejanza de princesa”, dijo Hulbert a TechCrunch por correo electrónico. “Una transformación sustancial también es un factor considerado al determinar si una copia constituye un ‘uso legítimo’. Pero, nuevamente, en la medida en que una princesa de Disney sea reconocible en un trabajo posterior, suponga que Disney afirmará que el trabajo posterior es una infracción de derechos de autor”.
Por supuesto, la batalla entre los titulares de propiedad intelectual y los presuntos infractores no es nueva, e Internet simplemente ha actuado como un acelerador. En 2020, Warner Bros. Entertainment, que posee el derecho de filmar representaciones del universo de Harry Potter, tenía ciertos fan art remoto de plataformas de redes sociales como Instagram y Etsy. Un año antes, Disney y Lucasfilm solicitado Giphy para eliminar los GIF de “Baby Yoda”.
Pero la IA generadora de imágenes amenaza con escalar enormemente el problema al reducir la barrera de entrada. No es probable que las dificultades de las grandes corporaciones generen simpatía (ni deberían), y sus esfuerzos para hacer cumplir la PI a menudo petardeo en el tribunal de opinión pública. Por otro lado, las obras de arte generadas por IA que infrinjan, digamos, los personajes de un artista independiente podrían amenazar el sustento.
El otro problema legal espinoso en torno a sistemas como DALL-E 2 se relaciona con el contenido de sus conjuntos de datos de entrenamiento. ¿Compañías como OpenAI violaron la ley de propiedad intelectual al usar imágenes y obras de arte protegidas por derechos de autor para desarrollar su sistema? Es una pregunta que ya se planteó en el contexto de Copilot, la herramienta comercial de generación de código desarrollada conjuntamente por OpenAI y GitHub. Pero a diferencia de Copilot, que fue entrenado en un código que GitHub podría tener el derecho de usar para el propósito según sus términos de servicio (según un análisis legal), sistemas como DALL-E 2 obtienen imágenes de innumerables sitios web públicos.
Damas y caballeros, ¡recibí mi invitación para Dall-E 2! 😁😁 Aquí hay algunas imágenes de Homer Simpson en Stranger Things antes de comenzar a twittear las cosas increíbles. #dalle2 pic.twitter.com/PHPI6n9yJk
— limb0wl 🦉👾 (@limb0wl) 5 de julio de 2022
Como señala Dave Gershgorn en un reciente función para The Verge, no hay un precedente legal directo en los EE. UU. que defienda los datos de capacitación disponibles públicamente como uso justo.
Un caso potencialmente relevante involucra a una empresa lituana llamada Planner 5D. En 2020, la firma demandado Meta (entonces Facebook) por supuestamente robar miles de archivos del software Planner 5D, que se pusieron a disposición a través de una asociación con Princeton para los concursantes del desafío de modelado y comprensión de escenas 2019 de Meta para investigadores de visión por computadora. Planner 5D afirmó que Princeton, Meta y Oculus, la división de hardware y software centrada en VR de Meta, podrían haberse beneficiado comercialmente de los datos de entrenamiento que se tomaron de ella.
el caso no es programado para ir a juicio hasta marzo de 2023. Pero en abril pasado, el juez de distrito de EE. UU. que supervisa el caso rechazó las mociones de Facebook y Princeton para desestimar las acusaciones de Planner 5G.
Como era de esperar, los titulares de derechos no se dejan influir por el argumento del uso justo. Un portavoz de Getty Images le dijo a IEEE Spectrum en un artículo que hay “grandes preguntas” que responder sobre “los derechos a las imágenes y las personas, lugares y objetos dentro de las imágenes que [models like DALL-E 2] fueron entrenados”. La directora ejecutiva de la Asociación de Ilustradores, Rachel Hill, quien también fue citada en el artículo, planteó el tema de la compensación por imágenes en los datos de entrenamiento.
Hulbert cree que es poco probable que un juez vea las copias de obras protegidas por derechos de autor en conjuntos de datos de entrenamiento como un uso justo, al menos en el caso de sistemas comerciales como DALL-E 2. No cree que esté descartado que los titulares de IP puedan venir después de que empresas como OpenAI en algún momento exigieran licencias de las imágenes utilizadas para entrenar sus sistemas.
“Las copias… constituyen una infracción de los derechos de autor de los autores originales. Y los infractores son responsables ante los propietarios de los derechos de autor por daños y perjuicios”, agregó. “[If] DALL-E (o DALL-E 2) y sus socios hacen una copia de una obra protegida, y la copia no fue aprobada por el propietario de los derechos de autor ni el uso legítimo, la copia constituye una infracción de los derechos de autor”.
Curiosamente, el Reino Unido está explorando una legislación que eliminaría el requisito actual de que los sistemas entrenados a través de la extracción de texto y datos, como DALL-E 2, se utilicen estrictamente para fines no comerciales. Si bien los titulares de los derechos de autor aún podrían solicitar el pago bajo el régimen propuesto poniendo sus obras detrás de un muro de pago, la política del Reino Unido sería una de las más liberales del mundo.
Parece poco probable que EE. UU. haga lo mismo, dado el poder de cabildeo de los titulares de propiedad intelectual en EE. UU. Es probable que el problema se resuelva en una futura demanda. Pero el tiempo lo dirá.