Stability AI lanza su último modelo de generación de imágenes, Stable Diffusion XL 1.0

La startup de IA Stability AI continúa refinando sus modelos generativos de IA frente a la creciente competencia y los desafíos éticos.

Hoy, Stability AI anunció el lanzamiento de Stable Diffusion XL 1.0, un modelo de texto a imagen que la compañía describe como su versión “más avanzada” hasta la fecha. Disponible en código abierto en GitHub además de la API de Stability y las aplicaciones de consumo, ClipDrop y DreamStudio, Stable Diffusion XL 1.0 ofrece colores “más vibrantes” y “precisos” y mejor contraste, sombras e iluminación en comparación con su predecesor, afirma Stability.

En una entrevista con TechCrunch, Joe Penna, jefe de aprendizaje automático aplicado de Stability AI, señaló que Stable Diffusion XL 1.0, que contiene 3.500 millones de parámetros, puede producir imágenes de resolución completa de 1 megapíxel “en segundos” en múltiples relaciones de aspecto. Los “parámetros” son las partes de un modelo aprendidas a partir de datos de entrenamiento y esencialmente definen la habilidad del modelo en un problema, en este caso generando imágenes.

El modelo Stable Diffusion de la generación anterior, Stable Diffusion XL 0.9, también podía producir imágenes de mayor resolución, pero requería más poder computacional.

“Stable Diffusion XL 1.0 es personalizable, listo para afinar conceptos y estilos”, dijo Penna. “También es más fácil de usar, capaz de diseños complejos con indicaciones básicas de procesamiento de lenguaje natural”.

Stable Diffusion XL 1.0 también se ha mejorado en el área de generación de texto. Si bien muchos de los mejores modelos de texto a imagen luchan por generar imágenes con logotipos legibles, mucho menos caligrafía o fuentes, Stable Diffusion XL 1.0 es capaz de generar texto y legibilidad “avanzadas”, dice Penna.

Y, según informa Ángulo de silicio y VentureBeat, Stable Diffusion XL 1.0 admite inpainting (reconstrucción de partes faltantes de una imagen), outpainting (extensión de imágenes existentes) y avisos de “imagen a imagen”, lo que significa que los usuarios pueden ingresar una imagen y agregar algunos avisos de texto para crear variaciones más detalladas de eso. imagen. Además, el modelo comprende instrucciones complicadas de varias partes dadas en indicaciones breves, mientras que los modelos anteriores de difusión estable necesitaban indicaciones de texto más largas.

Una imagen generada por Stable Diffusion XL 1.0. Créditos de imagen: Estabilidad IA

“Esperamos que al lanzar este modelo de código abierto mucho más potente, la resolución de las imágenes no sea lo único que se cuadruplique, sino también avances que beneficiarán enormemente a todos los usuarios”, agregó.

Pero al igual que con las versiones anteriores de Stable Diffusion, el modelo plantea cuestiones morales difíciles.

La versión de código abierto de Stable Diffusion XL 1.0 puede, en teoría, ser utilizada por malos actores para generar contenido tóxico o dañino, como falsificaciones profundas no consentidas. Eso es parcialmente un reflejo de los datos que se usaron para entrenarlo: millones de imágenes de toda la web.

Incontable tutoriales demostrar cómo usar las propias herramientas de Stability AI, incluido DreamStudio, un front-end de código abierto para Stable Diffusion, para crear deepfakes. Muchos otros muestran cómo afinar los modelos base de difusión estable para generar porno.

Penna no niega que el abuso sea posible y reconoce que el modelo contiene ciertos sesgos, también. Pero agregó que Stability AI tomó “medidas adicionales” para mitigar la generación de contenido dañino al filtrar los datos de entrenamiento del modelo en busca de imágenes “inseguras”, publicar nuevas advertencias relacionadas con avisos problemáticos y bloquear tantos términos problemáticos individuales en la herramienta como sea posible.

El conjunto de entrenamiento de Stable Diffusion XL 1.0 también incluye obras de arte de artistas que han protestado contra compañías como Stability AI que usan su trabajo como datos de entrenamiento para modelos generativos de IA. Stability AI afirma que está protegido de la responsabilidad legal por la doctrina del uso justo, al menos en los EE. UU. Pero eso no ha impedido que varios artistas y la compañía de fotografía de stock Getty Images presenten demandas para detener la práctica.

Stability AI, que tiene una asociación con la startup Spawning para respetar las solicitudes de “exclusión voluntaria” de estos artistas, dice que no ha eliminado todas las obras de arte marcadas de sus conjuntos de datos de entrenamiento, pero que “sigue incorporando las solicitudes de los artistas”.

“Estamos mejorando constantemente la funcionalidad de seguridad de Stable Diffusion y nos tomamos en serio la iteración de estas medidas”, dijo Penna. “Además, nos comprometemos a respetar las solicitudes de los artistas de ser eliminados de los conjuntos de datos de entrenamiento”.

Para coincidir con el lanzamiento de Stable Diffusion XL 1.0, Stability AI está lanzando una función de ajuste fino en versión beta para su API que permitirá a los usuarios usar tan solo cinco imágenes para “especializar” la generación en personas, productos y más específicos. La compañía también traerá Stable Diffusion XL 1.0 a Bedrock, la plataforma en la nube de Amazon para alojar modelos generativos de IA, ampliando su colaboración previamente anunciada con AWS.

El impulso de las asociaciones y las nuevas capacidades se produce cuando Stability sufre una pausa en sus esfuerzos comerciales, enfrentando una dura competencia de OpenAI, Midjourney y otros. En abril, Semafor reportado que Stability AI, que ha recaudado más de $ 100 millones en capital de riesgo hasta la fecha, estaba gastando dinero en efectivo, lo que provocó el cierre de una nota convertible de $ 25 millones en junio y una búsqueda de ejecutivos para ayudar a aumentar las ventas.

“El último modelo SDXL representa el siguiente paso en el legado de innovación de Stability AI y la capacidad de llevar al mercado los modelos de acceso abierto más vanguardistas para la comunidad de IA”, dijo el CEO de Stability AI, Emad Mostaque, en un comunicado de prensa. “La presentación de 1.0 en Amazon Bedrock demuestra nuestro fuerte compromiso de trabajar junto con AWS para brindar las mejores soluciones para los desarrolladores y nuestros clientes”.

Source link