Ahora cualquiera puede crear aplicaciones que usen DALL-E 2 para generar imágenes

Por fin, DALL-E 2, el sistema de IA de generación de imágenes de OpenAI, está disponible como una API, lo que significa que los desarrolladores pueden integrar el sistema en sus aplicaciones, sitios web y servicios. En una publicación de blog de hoy, OpenAI anunció que cualquier desarrollador puede comenzar a aprovechar el poder de DALL-E 2, que más de tres millones de personas usan ahora para producir más de cuatro millones de imágenes por día, una vez que crean una cuenta API de OpenAI como parte de la beta pública.

El precio de la API DALL-E 2 varía según la resolución. Para imágenes de 1024×1024, el costo es de $0.02 por imagen; las imágenes de 512 × 512 cuestan $ 0.018 por imagen; y las imágenes de 256×256 cuestan $0.016 por imagen. Los descuentos por volumen están disponibles para las empresas que trabajan con el equipo empresarial de OpenAI.

Al igual que con la versión beta de DALL-E 2, la API permitirá a los usuarios generar nuevas imágenes a partir de indicaciones de texto (p. ej., “un conejito esponjoso saltando por un campo de flores”) o editar imágenes existentes. Microsoft, un socio cercano de OpenAI, lo está aprovechando en Bing y Microsoft Edge con su herramienta Image Creator, que permite a los usuarios crear imágenes si los resultados web no arrojan lo que están buscando. La aplicación de diseño de moda CALA está utilizando la API DALL-E 2 para una herramienta que permite a los clientes refinar las ideas de diseño a partir de descripciones de texto o imágenes, mientras que la empresa de fotografía Mixtiles lo está llevando a un flujo de creación de obras de arte para sus usuarios.

No cambia mucho en términos de política con el lanzamiento de la API, lo que probablemente decepcionará a aquellos que temen que los sistemas de IA generativa como DALL-E 2 se publiquen sin tener suficiente consideración por los problemas éticos y legales que plantean. Como antes, los usuarios están sujetos a los términos de servicio de OpenAI, que prohíbe el uso de DALL-E 2 para generar contenido abiertamente violento, sexual o de odio. OpenAI también continúa bloqueando a los usuarios para que no carguen imágenes de personas sin su consentimiento o imágenes para las que no tienen los derechos, empleando una combinación de sistemas de monitoreo automatizados y humanos para hacer cumplir esto.

Una pequeña modificación es que no se requerirá que las imágenes generadas con la API contengan una marca de agua. OpenAI introdujo la marca de agua durante la versión beta de DALL-E 2 como una forma de indicar qué imágenes se originaron en el sistema, pero optó por hacerlo opcional con el lanzamiento de la API.

“Alentamos a los desarrolladores a revelar que las imágenes son generadas por IA, pero no requieren que incluyan la firma DALL-E 2”, dijo a TechCrunch por correo electrónico Luke Miller, gerente de producto de OpenAI que supervisa el desarrollo de DALL-E 2.

Herramienta Designer de Microsoft, impulsada por la API DALL-E 2.

OpenAI también emplea filtros a nivel de imagen y aviso con DALL-E 2, aunque los filtros de los que algunos clientes se han quejado son demasiado entusiasta y incorrecto. Y la compañía ha centrado una parte de sus esfuerzos de investigación en diversificar los tipos de imágenes que genera DALL-E 2, con el objetivo de combatir los sesgos de los que se sabe que son víctimas los sistemas de IA de texto a imagen (por ejemplo, generar principalmente imágenes de blancos). hombres cuando se les solicita un texto como “ejemplos de directores ejecutivos”).

Pero estos pasos no han disipado a todos los críticos. En agosto, Getty Images prohibido la carga y venta de ilustraciones generadas con DALL-E 2 y otras herramientas similares, siguiendo decisiones similares de sitios como Newgrounds, PurplePort y FurAffinity. El CEO de Getty Images, Craig Peters, le dijo a The Verge que la prohibición fue provocada por preocupaciones sobre “problemas correctos no abordados”, ya que los conjuntos de datos de capacitación para sistemas como DALL-E 2 contienen imágenes con derechos de autor extraídas de la web.

Muchos críticos dicen que no es simplemente la infracción de obra registrada que les preocupa sobre DALL-E 2. Argumentan que el sistema amenaza el sustento de los artistas cuyos estilos ahora se pueden replicar con unas pocas cadenas de texto, incluidos los artistas que no dieron su consentimiento para que su trabajo se usara para la capacitación de DALL-E 2. . (Para ser justos con OpenAI, la compañía obtuvo la licencia de una parte de las imágenes en el conjunto de datos de entrenamiento de DALL-E 2, que es más de lo que se puede decir de algunos de sus rivales).

En un intento por encontrar un término medio, el rival de Getty Images, Shutterstock, anunció recientemente que comenzaría a usar DALL-E 2 para generar contenido, pero al mismo tiempo lanzaría un “fondo de contribución” para reembolsar a los creadores cuando la empresa venda el trabajo para entrenar sistemas de IA de texto a imagen. . También está prohibiendo el arte de IA cargado por terceros para minimizar el potencial de que el trabajo con derechos de autor llegue a la plataforma.

Los tecnólogos Mat Dryhurst y Holly Herndon encabezan un esfuerzo llamado Fuente+ para permitir que las personas no permitan que su trabajo o imagen se utilice con fines de capacitación en IA. Pero es voluntario. OpenAI no ha dicho si participará o, de hecho, si alguna vez presentará una herramienta de autoservicio para permitir a los titulares de derechos excluir su trabajo de la capacitación o la generación de contenido.

Mixtiles se encuentra entre los primeros en adoptar la API DALL-E 2.

En una entrevista, Miller reveló pocos detalles específicos con respecto a las nuevas medidas mitigadoras, excepto que OpenAI ha estado mejorando sus técnicas para evitar que el sistema genere contenido sesgado, tóxico y ofensivo que los clientes puedan encontrar objetable. Describió la versión beta de la API abierta como un proceso “iterativo”, que implicará trabajar con “usuarios y artistas” durante los próximos meses a medida que OpenAI escala la infraestructura que impulsa a DALL-E 2.

Ciertamente, si la versión beta de DALL-E 2 es una indicación, el programa API evolucionará con el tiempo. Al principio, OpenAI deshabilitó la capacidad de editar las caras de las personas con DALL-E 2, pero luego habilitó la capacidad después de realizar mejoras en su sistema de seguridad.

“Hemos trabajado mucho en ese lado de las cosas, tanto a través de las imágenes que subes y las indicaciones que envías hasta alinear eso con nuestra política de contenido y preparar diferentes mitigaciones para filtrar en el nivel de indicación y en el nivel de la imagen para asegurarnos de que se alinea con nuestra política de contenido. Entonces, por ejemplo, si alguien subiera una imagen que contiene símbolos de odio o gore, como contenido muy, muy, muy violento, eso sería rechazado”, dijo Miller. “Siempre estamos pensando en cómo podemos mejorar el sistema”.

Pero aunque OpenAI parece ansioso por evitar la controversia que rodea a Stable Diffusion, el equivalente de código abierto de DALL-E 2 que se ha utilizado para crear deepfakes de pornografía, gore y celebridades, está dejando que los usuarios de API elijan exactamente cómo y dónde implementar su tecnología. Algunos, como Microsoft, sin duda adoptarán un enfoque mesurado, implementando productos con tecnología DALL-E 2 lentamente para recopilar comentarios. Otros se lanzarán de cabeza, adoptando tanto la tecnología como la Dilemas éticos que lo acompaña.

Si hay algo seguro, es que existe una demanda reprimida de IA generativa: al diablo con las consecuencias. Incluso antes de que la API estuviera disponible oficialmente, los desarrolladores publicaban soluciones alternativas para integrar DALL-E 2 en aplicaciones, servicios, sitios web e incluso videojuegos. Con el lanzamiento de la versión beta pública, impulsado por el formidable poder de marketing de OpenAI, las imágenes sintéticas están preparadas para entrar realmente en la corriente principal.

Source link