El nuevo modelo de Stability AI es ligeramente mejor en la generación de manos

Stability AI, la startup que financia una variedad de experimentos generativos de IA, ha lanzado una nueva versión de Stable Diffusion, el sistema de IA de texto a imagen que fue uno de los primeros en rivalizar con DALL-E 2 de OpenAI.

Llamado Difusión estable XL o SDXL, el nuevo sistema, que está disponible en versión beta a través de DreamStudio, la herramienta de arte generativo de Stability AI, mejora el original de manera clave. Tom Mason, CTO de Stability AI, dice que aporta una “riqueza” a la generación de imágenes de la que carecía el modelo anterior (Stable Diffusion 2.1), con mejoras más notables en aplicaciones como el diseño gráfico y la arquitectura.

“Nos complace anunciar la última versión de nuestra serie de soluciones de imagen Stable Diffusion”, dijo en un comunicado enlatado. “[It’s] transformador en varias industrias… con los resultados frente a nuestros ojos”.

Dejando a un lado la hipérbole, SDXL parece estar a la par, y quizás incluso mejor que, el último lanzamiento del modelo de Midjourney, el modelo responsable de “papa balenciaga(entre otros memes).

Mientras que la versión anterior de Stable Diffusion y muchos otros sistemas de texto a imagen luchan mucho para recrear ciertas anatomías, como las manos, SDXL no tiene ese problema. Las manos no siempre son… bueno, realistas. Pero están muy por delante del combustible de pesadilla que solía producir el predecesor de SDXL.

SDXL maneja mejor las manos, pero obviamente no a la perfección. Créditos de imagen: Estabilidad IA

Stable Diffusion 2.1 es claramente peor en las manos, sin duda. (Me veré fuera.) Créditos de imagen: Estabilidad IA

Se supone que SDXL también es mejor para generar texto, una tarea que históricamente ha arrojado modelos generativos de arte de IA para un bucle. Pero todavía tiene mucho camino por recorrer si mi breve prueba es una indicación.

En la parte superior, los resultados de Stable Diffusion 2.1. En la parte inferior, salidas de SDXL. Créditos de imagen: Estabilidad IA

En un comunicado de prensa, Stability AI también afirma que SDXL presenta “composición de imágenes y generación de rostros mejoradas” y no requiere indicaciones largas y detalladas para crear “imágenes descriptivas”, a diferencia de su predecesor. Además, SDXL tiene funciones que se extienden más allá de las indicaciones de texto a imagen, incluidas las indicaciones de imagen a imagen (ingresar una imagen para obtener variaciones de esa imagen), inpainting (reconstrucción de partes faltantes de una imagen) y outpainting (construcción de una imagen perfecta). extensión de una imagen existente).

Como comodín, traté de recrear el meme del Papa Balenciaga con un mensaje lo más breve posible: “Papa Balenciaga”. La diferencia en los resultados fue más marcada de lo que esperaba, debo decir, con SDXL posando modelos de pasarela en lo que podría pasar por atuendo de diseñador frente a la indumentaria de apariencia religiosa que evocaba la antigua Stable Diffusion.

Una vez que salga de la versión beta, SDXL será de código abierto, dice Stability AI, al igual que las iteraciones anteriores de Stable Diffusion. Además de DreamStudio, SDXL está actualmente disponible a través de la API de Stability, también en acceso anticipado.

Mientras que la tecnología de arte de IA generativa avanza, herramientas como SDXL han puesto a las empresas en problemas por la forma en que se han construido y comercializado. La IA de estabilidad está en el punto de mira de un Caso legal que alega que la compañía infringió los derechos de millones de artistas al desarrollar sus herramientas utilizando imágenes con derechos de autor extraídas de la web. El proveedor de imágenes de archivo Getty Images también ha llevado a Stability AI a los tribunales por según se informa utilizando imágenes de su sitio sin permiso para crear la difusión estable original.

El lanzamiento de código abierto de Stable Diffusion también se ha convertido en tema de controversia, debido a sus restricciones de uso relativamente ligeras. Algunas comunidades en la web lo han aprovechado para generar falsificaciones pornográficas de celebridades y representaciones gráficas de violencia. Hasta la fecha, al menos un legislador de EE. UU. ha pedido una regulación para abordar el lanzamiento de modelos como Stable Diffusion que “no moderan suficientemente el contenido”.

En respuesta a las demandas, Stability AI se comprometió recientemente a respetar las solicitudes de los artistas de eliminar su arte del conjunto de datos de entrenamiento de Stable Diffusion, pero eso no se aplica a SDXL, solo a los modelos Stable Diffusion de próxima generación, cuyo nombre en código es “Stable Diffusion 3.0”. .” Los artistas han eliminado más de 78 millones de obras de arte del conjunto de datos de capacitación hasta la fecha, según Spawning, la organización que lidera el esfuerzo de exclusión.

Al diablo con los desafíos legales, Stability AI está bajo presión para monetizar sus extensos esfuerzos de IA, que van desde el arte y la animación hasta el audio biomédico y generativo. El CEO de Stability AI, Emad Mostaque, ha insinuado planes para una OPI, pero Semafor recientemente reportado que Stability AI, que recaudó más de $ 100 millones en capital de riesgo en octubre pasado con una valoración informada de más de $ 1 mil millones, “está quemando efectivo y ha tardado en generar ingresos”.

Source link