La IA generativa es bastante impresionante en términos de su fidelidad en estos días, ya que los memes virales como papa balenciaga podría sugerir. Los últimos sistemas pueden evocar paisajes desde el horizonte de la ciudad hasta cafés, creando imágenes que parecen sorprendentemente realistas, al menos a primera vista.
Pero una de las debilidades de larga data de los modelos de IA de texto a imagen es, irónicamente, el texto. Incluso los mejores modelos tienen dificultades para generar imágenes con logotipos legibles, mucho menos texto, caligrafía o fuentes.
Pero eso podría cambiar.
La semana pasada, DeepFloyd, un grupo de investigación respaldado por Stability AI, desvelado Deep Floyd SI, un modelo de texto a imagen que puede integrar “inteligentemente” texto en imágenes. Entrenado en un conjunto de datos de más de mil millones de imágenes y texto, DeepFloyd IF, que requiere una GPU con al menos 16 GB de RAM para funcionar, puede crear una imagen a partir de un aviso como “un oso de peluche con una camiseta que dice ‘Deep Floyd’ ” — opcionalmente en una variedad de estilos.
DeepFloyd IF está disponible en código abierto, con licencia que prohíbe el uso comercial, por ahora. La restricción probablemente estuvo motivada por el tenue estado legal actual de los modelos de arte generativo de IA. Varios vendedores de modelos comerciales están siendo criticados por artistas que alegan que los vendedores se están beneficiando de su trabajo sin compensarlos extrayendo ese trabajo de la web sin permiso.
Pero NightCafe, la plataforma de arte generativo, fue concedida acceso temprano a DeepFloyd SI.
El CEO de NightCafe, Angus Russell, habló con TechCrunch sobre lo que hace que DeepFloyd IF sea diferente de otros modelos de texto a imagen y por qué podría representar un importante paso adelante para la IA generativa.
Según Russell, el diseño de DeepFloyd IF se inspiró en gran medida en el modelo Imagen de Google, que nunca se hizo público. A diferencia de modelos como DALL-E 2 y Stable Diffusion de OpenAI, DeepFloyd IF utiliza múltiples procesos diferentes apilados en una arquitectura modular para generar imágenes.
Créditos de imagen: floydprofundo
Con un modelo de difusión típico, el modelo aprende a sustraer gradualmente el ruido de una imagen inicial compuesta casi en su totalidad por ruido, acercándola paso a paso al indicador de destino. DeepFloyd IF realiza la difusión no una sino varias veces, generando una imagen de 64x64px, luego escalando la imagen a 256x256px y finalmente a 1024x1024px.
¿Por qué la necesidad de múltiples pasos de difusión? DeepFloyd IF funciona directamente con píxeles, explicó Russell. Los modelos de difusión son en su mayor parte modelos de difusión latente, lo que esencialmente significa que funcionan en un espacio de menor dimensión que representa muchos más píxeles pero de una manera menos precisa.
La otra diferencia clave entre DeepFloyd IF y modelos como Stable Diffusion y DALL-E 2 es que el primero usa un modelo de lenguaje grande para comprender y representar indicaciones como un vector, una estructura de datos básica. Debido al tamaño del gran modelo de lenguaje integrado en la arquitectura de DeepFloyd IF, el modelo es particularmente bueno para comprender indicaciones complejas e incluso relaciones espaciales descritas en las indicaciones (p. ej., “un cubo rojo sobre una esfera rosa”).
“También es muy bueno para generar texto legible y correctamente escrito en imágenes, e incluso puede comprender indicaciones en varios idiomas”, agregó Russell. “De estas capacidades, la capacidad de generar texto legible en imágenes es quizás el mayor avance para hacer que DeepFloyd IF se destaque de otros algoritmos”.
Debido a que DeepFloyd IF puede generar texto en imágenes de manera bastante eficiente, Russell espera que desbloquee una ola de nuevas posibilidades de arte generativo: piense en diseño de logotipos, diseño web, carteles, vallas publicitarias e incluso memes. El modelo también debería ser mucho mejor para generar cosas como manos, dice, y, debido a que puede entender indicaciones en otros idiomas, también podría crear texto en esos idiomas.
“Los usuarios de NightCafe están entusiasmados con DeepFloyd IF en gran parte debido a las posibilidades que se desbloquean al generar texto en imágenes”, dijo Russell. “Stable Diffusion XL fue el primer algoritmo de código abierto que avanzó en la generación de texto (puede generar con precisión una o dos palabras algunas veces), pero aún no es lo suficientemente bueno para los casos de uso donde el texto es importante”.
Eso no quiere decir que DeepFloyd IF sea el santo grial de los modelos de texto a imagen. Russell señala que el modelo base no genera imágenes que sean tan agradables estéticamente como algunos modelos de difusión, aunque espera que el ajuste fino mejore eso.
Créditos de imagen: floydprofundo
Pero la pregunta más importante, para mí, es hasta qué punto DeepFloyd IF sufre de los mismos defectos que sus hermanos de IA generativa.
Un cuerpo creciente de investigación ha descubierto estereotipos raciales, étnicos, de género y de otro tipo en la IA que genera imágenes, incluido Difusión estable. Apenas este mes, los investigadores de la startup de IA Hugging Face y la Universidad de Leipzig publicaron un herramienta demostrando que los modelos que incluyen Stable Diffusion y OpenAI’s DALL-E 2 tienden a producir imágenes de personas que parecen blancas y masculinas, especialmente cuando se les pide que representen a personas en posiciones de autoridad.
El equipo de DeepFloyd, para su crédito, nota el potencial de sesgos en la letra pequeña que acompaña a DeepFloyd IF:
Es probable que los textos e imágenes de comunidades y culturas que usan otros idiomas no se tengan en cuenta de manera suficiente. Esto afecta el resultado general del modelo, ya que las culturas blanca y occidental a menudo se establecen como predeterminadas.
Aparte de esto, DeepFloyd IF, al igual que otros modelos generativos de código abierto, podría usarse para hacer daño, como generar deepfakes pornográficos de celebridades y representaciones gráficas de violencia. En la página web oficial de DeepFloyd IF, el equipo de DeepFloyd dice que usaron “filtros personalizados” para eliminar marcas de agua, “NSFW” y “otro contenido inapropiado” de los datos de entrenamiento.
Pero no está claro exactamente qué contenido se eliminó y cuánto se pudo haber perdido. Al final, el tiempo lo dirá.
Source link