Google responde a la IA de generación de video de Meta con su propia Imagen Video

Para no ser superado por Make-A-Video de Meta, Google detalló hoy su trabajo en imagen de video, un sistema de inteligencia artificial que puede generar clips de video al recibir un mensaje de texto (por ejemplo, “un osito de peluche lavando platos”). Si bien los resultados no son perfectos (los clips en bucle que genera el sistema tienden a tener artefactos y ruido), Google afirma que Imagen Video es un paso hacia un sistema con un “alto grado de controlabilidad” y conocimiento del mundo, incluida la capacidad de generar imágenes. en una variedad de estilos artísticos.

Como señaló mi colega Devin Coldewey en su artículo sobre Make-A-Video, los sistemas de texto a video no son nuevos. A principios de este año, un grupo de investigadores de la Universidad de Tsinghua y la Academia de Inteligencia Artificial de Beijing lanzaron CogVideo, que puede traducir texto en clips cortos de fidelidad razonablemente alta. Pero Imagen Video parece ser un salto significativo sobre el estado del arte anterior, mostrando una aptitud para animar subtítulos que los sistemas existentes tendrían problemas para entender.

“Definitivamente es una mejora”, dijo a TechCrunch por correo electrónico Matthew Guzdial, profesor asistente en la Universidad de Alberta que estudia IA y aprendizaje automático. “Como puede ver en los ejemplos de video, a pesar de que el equipo de comunicaciones está seleccionando las mejores salidas, todavía hay una extraña borrosidad y artificio. Así que esto definitivamente no se usará directamente en animación o televisión en el corto plazo. Pero definitivamente podría integrarse en herramientas para ayudar a acelerar algunas cosas”.

Créditos de imagen: Google

Imagen Video se basa en Imagen de Google, un sistema de generación de imágenes comparable a DALL-E 2 y Stable Diffusion de OpenAI. Imagen es lo que se conoce como un modelo de “difusión”, que genera nuevos datos (por ejemplo, videos) al aprender a “destruir” y “recuperar” muchas muestras de datos existentes. A medida que alimenta las muestras existentes, el modelo mejora en la recuperación de los datos que había destruido previamente para crear nuevos trabajos.

Créditos de imagen: Google

Como explica el equipo de investigación de Google detrás de Imagen Video en un papel, el sistema toma una descripción de texto y genera un video de 16 cuadros, tres cuadros por segundo con una resolución de 24 por 48 píxeles. Luego, el sistema mejora y “predice” fotogramas adicionales, produciendo un video final de 128 fotogramas y 24 fotogramas por segundo a 720p (1280×768).

Créditos de imagen: Google

Google dice que Imagen Video se entrenó en 14 millones de pares de video-texto y 60 millones de pares de imagen-texto, así como en el conjunto de datos de imagen-texto LAION-400M disponible públicamente, lo que le permitió generalizar a una variedad de estéticas. En experimentos, descubrieron que Imagen Video podía crear videos al estilo de las pinturas y acuarelas de Van Gogh. Quizás lo más impresionante es que afirman que Imagen Video demostró una comprensión de la profundidad y la tridimensionalidad, lo que le permitió crear videos como recorridos aéreos de drones que giran y capturan objetos desde diferentes ángulos sin distorsionarlos.

En una importante mejora con respecto a los sistemas de generación de imágenes disponibles en la actualidad, Imagen Video también puede reproducir texto correctamente. Si bien Stable Diffusion y DALL-E 2 luchan por traducir indicaciones como “un logotipo para ‘Diffusion’” en un tipo legible, Imagen Video lo presenta sin problemas, al menos a juzgar por el papel.

Eso no quiere decir que Imagen Video no tenga limitaciones. Como es el caso de Make-A-Video, incluso los clips seleccionados de Imagen Video están nerviosos y distorsionados en partes, como aludió Guzdial, con objetos que se mezclan de formas físicamente antinaturales e imposibles. Para mejorar esto, el equipo de Imagen Video planea combinar fuerzas con los investigadores detrás Fenakiotro sistema de texto a video de Google que puede convertir indicaciones largas y detalladas en videos de más de dos minutos, aunque con una calidad inferior.

Vale la pena abrir un poco las cortinas de Phenaki para ver a dónde podría conducir una colaboración entre los equipos. Mientras que Imagen Video se enfoca en la calidad, Phenaki prioriza la coherencia y la duración. El sistema puede convertir indicaciones de párrafos largos en películas de una duración arbitraria, desde una escena de una persona en una motocicleta hasta una nave espacial alienígena que vuela sobre una ciudad futurista. Los clips generados por Phenaki sufren los mismos fallos que los de Imagen Video, pero me sorprende lo cerca que siguen las descripciones de texto largas y matizadas que los impulsaron.

Por ejemplo, aquí hay un aviso enviado a Phenaki:

Mucho tráfico en la ciudad futurista. Una nave extraterrestre llega a la ciudad futurista. La cámara se mete dentro de la nave extraterrestre. La cámara avanza hasta mostrar a un astronauta en la habitación azul. El astronauta está escribiendo en el teclado. La cámara se aleja del astronauta. El astronauta deja el teclado y camina hacia la izquierda. El astronauta deja el teclado y se aleja. La cámara se mueve más allá del astronauta y mira la pantalla. La pantalla detrás del astronauta muestra peces nadando en el mar. Crash zoom en el pez azul. Seguimos al pez azul mientras nada en el océano oscuro. La cámara apunta hacia el cielo a través del agua. El océano y la costa de una ciudad futurista. Crash zoom hacia un rascacielos futurista. La cámara se acerca a una de las muchas ventanas. Estamos en una oficina con escritorios vacíos. Un león corre encima de los escritorios de la oficina. La cámara se acerca a la cara del león, dentro de la oficina. Aléjate del león que viste un traje oscuro en una oficina. El león que lleva mira a la cámara y sonríe. La cámara se aleja lentamente hacia el exterior del rascacielos. Timelapse del atardecer en la ciudad moderna.

Y aquí está el video generado:

Créditos de imagen: Google

Volviendo a Imagen Video, los investigadores también notaron que los datos utilizados para entrenar el sistema contenían contenido problemático, lo que podría resultar en que Imagen Video produjera clips gráficamente violentos o sexualmente explícitos. Google dice que no lanzará el modelo de Imagen Video o el código fuente “hasta que se mitiguen estas preocupaciones”.

Aún así, con la tecnología de texto a video progresando a un ritmo rápido, es posible que no pase mucho tiempo antes de que surja un modelo de código abierto, que sobrecargue la creatividad y presente un desafío insuperable en lo que respecta a las falsificaciones profundas y la desinformación.

Source link