La música generada por IA ya es un concepto lo suficientemente innovador, pero Riffusion lo lleva a otro nivel con un enfoque inteligente y extraño que produce música extraña y convincente utilizando no audio sino imágenes de audio.
Suena extraño, es extraño. Pero si funciona, funciona. ¡Y funciona! Mas o menos.
La difusión es una técnica de aprendizaje automático para generar imágenes que sobrealimentó el mundo de la IA durante el último año. DALL-E 2 y Stable Diffusion son los dos modelos de más alto perfil que funcionan al reemplazar gradualmente el ruido visual con lo que la IA cree que debería ser un aviso.
El método ha demostrado ser poderoso en muchos contextos y es muy susceptible de ajustes, donde le das al modelo mayormente entrenado una gran cantidad de un tipo específico de contenido para que se especialice en producir más ejemplos de ese contenido. Por ejemplo, podría ajustarlo en acuarelas o en fotos de automóviles, y sería más capaz de reproducir cualquiera de esas cosas.
Lo que Seth Forsgren y Hayk Martiros hicieron para su proyecto de afición Riffusion fue ajustar la difusión estable en los espectrogramas.
“Hayk y yo tocamos juntos en una pequeña banda, y comenzamos el proyecto simplemente porque amamos la música y no sabíamos si sería posible que la difusión estable creara una imagen de espectrograma con suficiente fidelidad para convertirla en audio”, Forsgren le dijo a TechCrunch. “En cada paso del camino nos ha impresionado cada vez más lo que es posible, y una idea lleva a la siguiente”.
¿Qué son los espectrogramas, preguntas? Son representaciones visuales de audio que muestran la amplitud de diferentes frecuencias a lo largo del tiempo. Probablemente haya visto formas de onda, que muestran el volumen a lo largo del tiempo y hacen que el audio parezca una serie de colinas y valles; imagina si en lugar de solo el volumen total, mostrara el volumen de cada frecuencia, desde el extremo inferior hasta el extremo superior.
Aquí hay parte de uno que hice yo mismo de una canción (“La radio de Marconi” de The Secret Machinessi te lo estás preguntando):
Créditos de imagen: Devin Coldewey
Puede ver cómo se vuelve más fuerte en todas las frecuencias a medida que se desarrolla la canción, e incluso puede detectar notas e instrumentos individuales si sabe qué buscar. El proceso no es intrínsecamente perfecto o sin pérdidas de ninguna manera, pero es una representación precisa y sistemática del sonido. Y puede volver a convertirlo en sonido haciendo el mismo proceso a la inversa.
Forsgren y Martiros hicieron espectrogramas de un montón de música y etiquetaron las imágenes resultantes con los términos relevantes, como guitarra de blues, piano de jazz, afrobeat, cosas así. Alimentar al modelo con esta colección le dio una buena idea de cómo “se ven” ciertos sonidos y cómo podría recrearlos o combinarlos.
Así es como se ve el proceso de difusión si lo muestra mientras refina la imagen:
Créditos de imagen: Seth Forsgren / Hayk Martiros
Y, de hecho, el modelo demostró ser capaz de producir espectrogramas que, cuando se convierten en sonido, son una buena combinación para indicaciones como piano funky, saxofón de jazz, etc. Aquí hay un ejemplo:
Créditos de imagen: Seth Forsgren / Hayk Martiros
Pero, por supuesto, un espectrograma cuadrado (512 × 512 píxeles, una resolución de difusión estable estándar) solo representa un clip corto; una canción de 3 minutos sería un rectángulo mucho, mucho más ancho. Nadie quiere escuchar música cinco segundos a la vez, pero las limitaciones del sistema que crearon significa que no pudieron crear un espectrograma de 512 píxeles de alto y 10 000 de ancho.
Después de probar algunas cosas, aprovecharon la estructura fundamental de modelos grandes como Stable Diffusion, que tienen una gran cantidad de “espacio latente”. Esto es algo así como la tierra de nadie entre nodos más bien definidos. Por ejemplo, si tuviera un área del modelo que representara gatos y otra que representara perros, lo que está “entre” ellos es un espacio latente que, si solo le dice a la IA que dibuje, sería una especie de perro gato o perro gato, aunque no hay tal cosa.
Por cierto, las cosas del espacio latente se vuelven mucho más raras que eso:
Sin embargo, no hay mundos de pesadilla espeluznantes para el proyecto Riffusion. En cambio, descubrieron que si tiene dos indicaciones, como “campanas de iglesia” y “ritmos electrónicos”, puede pasar de uno a otro poco a poco y gradualmente y sorprendentemente se desvanece naturalmente de uno a otro. en el ritmo incluso:
Es un sonido extraño e interesante, aunque obviamente no es particularmente complejo ni de alta fidelidad; recuerda, ni siquiera estaban seguros de que los modelos de difusión pudieran hacer esto, por lo que la facilidad con la que este convierte campanas en ritmos o toques de máquina de escribir en piano y bajo es bastante notable.
Es posible producir clips de formato más largo, pero sigue siendo teórico:
“Realmente no hemos tratado de crear una canción clásica de 3 minutos con coros y versos repetitivos”, dijo Forsgren. “Creo que se podría hacer con algunos trucos inteligentes, como construir un modelo de nivel superior para la estructura de la canción y luego usar el modelo de nivel inferior para clips individuales. Alternativamente, podrías entrenar profundamente nuestro modelo con imágenes de canciones completas con una resolución mucho mayor”.
¿Adónde va desde aquí? Otros grupos están intentando crear música generada por IA de varias maneras, desde el uso modelos de síntesis de voz a los de audio especialmente entrenados como Dance Diffusion.
Riffusion es más una demostración de “wow, mira esto” que cualquier tipo de gran plan para reinventar la música, y Forsgren dijo que él y Martiros estaban felices de ver a las personas involucrarse con su trabajo, divertirse y repetirlo:
“Hay muchas direcciones a las que podríamos ir desde aquí, y estamos emocionados de seguir aprendiendo en el camino. También ha sido divertido ver a otras personas construyendo sus propias ideas sobre nuestro código esta mañana. Una de las cosas sorprendentes de la comunidad de Stable Diffusion es la rapidez con la que las personas construyen sobre cosas en direcciones que los autores originales no pueden predecir”.
Puede probarlo en una demostración en vivo en riffusion.com, pero es posible que tengas que esperar un poco para que tu clip se procese; esto llamó un poco más la atención de lo que esperaban los creadores. El código está todo disponible. a través de la página acerca deasí que siéntete libre de ejecutar el tuyo también, si tienes las fichas para hacerlo.
Source link