Los investigadores de Meta han dado un salto significativo en el campo de la generación de arte con IA con Make-A-Video, la nueva técnica con nombre creativo para, lo adivinó, hacer un video a partir de nada más que un mensaje de texto. Los resultados son impresionantes y variados, y todos, sin excepción, un poco espeluznantes.
Hemos visto modelos de texto a video antes: es una extensión natural de los modelos de texto a imagen como DALL-E, que genera imágenes fijas a partir de indicaciones. Pero si bien el salto conceptual de una imagen fija a una en movimiento es pequeño para una mente humana, está lejos de ser trivial de implementar en un modelo de aprendizaje automático.
Make-A-Video en realidad no cambia mucho el juego en el back-end, como señalan los investigadores en el artículo que lo describe, “un modelo que solo ha visto texto que describe imágenes es sorprendentemente efectivo para generar videos cortos”.
La IA utiliza la técnica de difusión existente y efectiva para crear imágenes, que esencialmente funciona al revés desde la estática visual pura, “eliminando el ruido” hacia el indicador de destino. Lo que se agrega aquí es que el modelo también recibió capacitación sin supervisión (es decir, examinó los datos en sí sin una guía sólida de los humanos) en un montón de contenido de video sin etiquetar.
Lo que sabe desde el principio es cómo hacer una imagen realista; lo que sabe del segundo es cómo se ven los cuadros secuenciales de un video. Sorprendentemente, es capaz de combinarlos de manera muy efectiva sin ningún entrenamiento particular sobre cómo deben combinarse.
“En todos los aspectos, resolución espacial y temporal, fidelidad al texto y calidad, Make-A-Video establece el nuevo estado del arte en la generación de texto a video, según lo determinado por medidas tanto cualitativas como cuantitativas”. escriben los investigadores.
Es difícil no estar de acuerdo. Los sistemas anteriores de texto a video usaban un enfoque diferente y los resultados no eran impresionantes pero eran prometedores. Ahora Make-A-Video los saca del agua, logrando una fidelidad en línea con las imágenes de hace quizás 18 meses en DALL-E original u otros sistemas de generaciones anteriores.
Pero hay que decirlo: definitivamente todavía hay algo raro en ellos. No es que debamos esperar fotorrealismo o un movimiento perfectamente natural, pero todos los resultados tienen una especie de… bueno, no hay otra palabra para describirlo: son un poco de pesadilla, ¿no?
Créditos de imagen: Meta
Créditos de imagen: Meta
Hay algo horrible en ellos que es a la vez onírico y terrible. La calidad del movimiento es extraña, como si fuera una película de stop-motion. La corrupción y los artefactos le dan a cada pieza una sensación peluda y surrealista, como si los objetos estuvieran goteando. Las personas se mezclan entre sí: no hay comprensión de los límites de los objetos o en qué algo debería terminar o contactar.
Créditos de imagen: Meta
Créditos de imagen: Meta
No digo todo esto como una especie de snob de IA que solo quiere las mejores imágenes realistas de alta definición. Simplemente creo que es fascinante que, por muy realistas que sean estos videos en un sentido, son todos tan extraños y desagradables en otros. Que se puedan generar rápida y arbitrariamente es increíble, y solo mejorará. Pero incluso los mejores generadores de imágenes aún tienen esa calidad surrealista que es difícil identificar.
Make-A-Video también permite transformar imágenes fijas y otros videos en variantes o extensiones de los mismos, de manera muy similar a cómo los generadores de imágenes también pueden recibir instrucciones con las propias imágenes. Los resultados son un poco menos perturbadores.
Esto realmente es un gran paso adelante de lo que existía antes, y el equipo debe ser felicitado. Todavía no está disponible para el público, pero puede Registrate aquí para entrar en la lista para cualquier forma de acceso que decidan más adelante.
Source link