El mundo de la IA todavía está descubriendo cómo lidiar con la asombrosa demostración de destreza que es la capacidad de DALL-E 2 para dibujar/pintar/imaginar casi cualquier cosa… pero OpenAI no es el único que trabaja en algo así. Google Research se ha apresurado a publicar un modelo similar en el que ha estado trabajando, que afirma que es aún mejor.
Imagen (¿entiendes?) es un generador basado en la difusión de texto a imagen creado en grandes modelos de lenguaje de transformadores que… está bien, reduzcamos la velocidad y descomprimamos eso muy rápido.
Los modelos de texto a imagen toman entradas de texto como “un perro en bicicleta” y producen una imagen correspondiente, algo que se ha hecho durante años pero que recientemente ha experimentado grandes avances en calidad y accesibilidad.
Parte de eso es el uso de técnicas de difusión, que básicamente comienzan con una imagen de ruido puro y la refinan poco a poco hasta que el modelo piensa que no puede hacer que se parezca más a un perro en bicicleta de lo que ya se ve. Esta fue una mejora con respecto a los generadores de arriba a abajo que podrían equivocarse graciosamente en la primera suposición, y otros que podrían desviarse fácilmente.
La otra parte es una mejor comprensión del lenguaje a través de grandes modelos de lenguaje que utilizan el enfoque del transformador, cuyos aspectos técnicos no abordaré aquí (y no puedo hacerlo), pero este y algunos otros avances recientes han llevado a modelos de lenguaje convincentes como GPT-3 y otros.
Créditos de imagen: Investigación de Google
Imagen comienza generando una imagen pequeña (64 × 64 píxeles) y luego realiza dos pasadas de “súper resolución” para llevarla a 1024 × 1024. Sin embargo, esto no es como la ampliación normal, ya que la súper resolución de IA crea nuevos detalles en armonía con la imagen más pequeña, utilizando el original como base.
Digamos, por ejemplo, que tiene un perro en una bicicleta y el ojo del perro tiene 3 píxeles de ancho en la primera imagen. ¡No hay mucho espacio para la expresión! Pero en la segunda imagen, tiene 12 píxeles de ancho. ¿De dónde viene el detalle necesario para esto? Bueno, la IA sabe cómo es el ojo de un perro, por lo que genera más detalles a medida que dibuja. Luego, esto vuelve a suceder cuando el ojo se vuelve a hacer, pero a 48 píxeles de ancho. Pero en ningún momento la IA tuvo que sacar 48 píxeles de ojo de perro de su… digamos bolsa mágica. Como muchos artistas, comenzó con el equivalente a un borrador, lo completó en un estudio y luego fue realmente a la ciudad en el lienzo final.
Esto no tiene precedentes y, de hecho, los artistas que trabajan con modelos de IA ya usan esta técnica para crear piezas que son mucho más grandes de lo que la IA puede manejar de una sola vez. Si divide un lienzo en varias piezas y las superresoluciona todas por separado, obtendrá algo mucho más grande y con más detalles intrincados; Incluso puedes hacerlo repetidamente. un ejemplo interesante de un artista que conozco:
La imagen publicada anteriormente es la friolera de 24576 x 11264 píxeles. No hay mejora. De hecho, pasé mucho @letsenhance_io‘s limites.😥
La imagen es lo que yo llamo “tercera generación” (juego de palabras), con sus 420 cortes regenerados a partir de una imagen anterior ya regenerada una vez.🧵2/10 pic.twitter.com/QG2ZcccQma
— DilkROM Glitches (@dilkROMGlitches) 17 de mayo de 2022
Los avances que los investigadores de Google afirman con Imagen son varios. Dicen que los modelos de texto existentes se pueden usar para la parte de codificación del texto y que su calidad es más importante que simplemente aumentar la fidelidad visual. Eso tiene sentido intuitivamente, ya que una imagen detallada de tonterías es definitivamente peor que una imagen un poco menos detallada de exactamente lo que pediste.
Por ejemplo, en el papel al describir Imagen, comparan los resultados con los de DALL-E 2 haciendo “un panda haciendo arte latte”. En todas las imágenes de este último, es arte latte de un panda; en la mayor parte de Imagen es un panda haciendo el arte. (Ninguno de los dos pudo convertir a un caballo en un astronauta, mostrando lo contrario en todos los intentos. Es un trabajo en progreso).
Créditos de imagen: Investigación de Google
En las pruebas de Google, Imagen salió adelante en las pruebas de evaluación humana, tanto en precisión como en fidelidad. Obviamente, esto es bastante subjetivo, pero incluso igualar la calidad percibida de DALL-E 2, que hasta hoy se consideraba un gran paso adelante de todo lo demás, es bastante impresionante. Solo agregaré que si bien es bastante bueno, ninguna de estas imágenes (de ningún generador) resistirá más que un escrutinio superficial antes de que las personas se den cuenta de que se generaron o tengan serias sospechas.
Sin embargo, OpenAI está uno o dos pasos por delante de Google en un par de aspectos. DALL-E 2 es más que un trabajo de investigación, es una versión beta privada con personas que lo usan, tal como usaron su predecesor y GPT-2 y 3. Irónicamente, la compañía con “abierto” en su nombre se ha centrado en producir su texto. -a la investigación de la imagen, mientras que el gigante de Internet fabulosamente rentable aún tiene que intentarlo.
Eso está más que claro por la elección que hicieron los investigadores de DALL-E 2, para curar el conjunto de datos de entrenamiento con anticipación y eliminar cualquier contenido que pudiera violar sus propias pautas. El modelo no podría hacer algo NSFW aunque lo intentara. Sin embargo, el equipo de Google utilizó grandes conjuntos de datos que se sabe que incluyen material inapropiado. En una detallada sección del sitio de Imagen que describe “Limitaciones e impacto social”, los investigadores escriben:
Las aplicaciones posteriores de los modelos de texto a imagen son variadas y pueden afectar a la sociedad de formas complejas. Los riesgos potenciales de uso indebido plantean preocupaciones con respecto a la fuente abierta responsable de código y demostraciones. En este momento, hemos decidido no lanzar el código o una demostración pública.
Los requisitos de datos de los modelos de texto a imagen han llevado a los investigadores a depender en gran medida de grandes conjuntos de datos extraídos de la web, en su mayoría no seleccionados. Si bien este enfoque ha permitido avances algorítmicos rápidos en los últimos años, los conjuntos de datos de esta naturaleza a menudo reflejan estereotipos sociales, puntos de vista opresivos y asociaciones despectivas o dañinas con grupos de identidad marginados. Si bien se filtró un subconjunto de nuestros datos de capacitación para eliminar el ruido y el contenido indeseable, como imágenes pornográficas y lenguaje tóxico, también utilizamos el conjunto de datos LAION-400M, que se sabe que contiene una amplia gama de contenido inapropiado, incluidas imágenes pornográficas, insultos racistas y estereotipos sociales dañinos. Imagen se basa en codificadores de texto entrenados en datos a escala web no seleccionados y, por lo tanto, hereda los sesgos sociales y las limitaciones de los grandes modelos de lenguaje. Como tal, existe el riesgo de que Imagen haya codificado estereotipos y representaciones dañinas, lo que guía nuestra decisión de no publicar Imagen para uso público sin más garantías.
Si bien algunos pueden criticar esto, decir que Google teme que su IA no sea lo suficientemente políticamente correcta, esa es una visión poco caritativa y miope. Un modelo de IA es tan bueno como los datos con los que se entrena, y no todos los equipos pueden dedicar el tiempo y el esfuerzo necesarios para eliminar las cosas realmente horribles que estos raspadores recogen a medida que ensamblan millones de imágenes o miles de millones. conjuntos de datos de palabras.
Dichos sesgos están destinados a aparecer durante el proceso de investigación, lo que expone cómo funcionan los sistemas y proporciona un campo de pruebas sin restricciones para identificar estas y otras limitaciones. ¿De qué otra manera sabríamos que una IA no puede dibujar peinados comunes entre las personas negras, peinados que cualquier niño podría dibujar? ¿O que cuando se le pide que escriba historias sobre entornos de trabajo, la IA invariablemente convierte al jefe en un hombre? En estos casos, un modelo de IA funciona perfectamente y según lo diseñado: ha aprendido con éxito los sesgos que impregnan los medios en los que se entrena. ¡No a diferencia de la gente!
Pero mientras que desaprender el sesgo sistémico es un proyecto de por vida para muchos humanos, una IA lo tiene más fácil y sus creadores pueden eliminar el contenido que hizo que se comportara mal en primer lugar. Quizás algún día se necesite una IA para escribir al estilo de un experto racista y sexista de los años 50, pero por ahora los beneficios de incluir esos datos son pequeños y los riesgos grandes.
En cualquier caso, Imagen, como los demás, todavía está claramente en la fase experimental, no lista para ser empleada de otra manera que no sea estrictamente supervisada por humanos. Cuando Google empiece a hacer que sus capacidades sean más accesibles, estoy seguro de que aprenderemos más sobre cómo y por qué funciona.