Google creó una IA que puede generar música a partir de descripciones de texto, pero no la lanzará

Neto

hace 3 años

Google creó una IA que puede generar música a partir de descripciones de texto, pero no la lanzará

Un nuevo e impresionante sistema de inteligencia artificial de Google puede generar música en cualquier género con una descripción de texto. Pero la empresa, por temor a los riesgos, no tiene planes inmediatos de lanzarlo.

Llamó MúsicaLM, Google ciertamente no es el primer sistema generativo de IA para canciones. Ha habido otros intentos, incluido Riffusion, una IA que compone música visualizándola, así como Dance Diffusion, AudioML de Google y Jukebox de OpenAI. Pero debido a limitaciones técnicas y datos de entrenamiento limitados, ninguno ha podido producir canciones particularmente complejas en composición o alta fidelidad.

MusicLM es quizás el primero que puede hacerlo.

Detallado en un académico papelMusicLM fue entrenado en un conjunto de datos de 280,000 horas de música para aprender a generar canciones coherentes para descripciones de, como lo expresaron los creadores, “complejidad significativa” (por ejemplo, “canción de jazz encantadora con un solo de saxofón memorable y un cantante solista” o “Tecno de los años 90 de Berlín con un bajo bajo y una patada fuerte”. Sus canciones, sorprendentemente, suenan como si un artista humano pudiera componer, aunque no necesariamente tan inventivo o musicalmente cohesivo.

Es difícil exagerar lo bien que suenan las muestras dado que no hay músicos o instrumentistas en el bucle. Incluso cuando se alimenta con descripciones algo largas y serpenteantes, MusicLM logra capturar matices como riffs instrumentales, melodías y estados de ánimo.

La leyenda de la muestra a continuación, por ejemplo, incluía el bit “induce la experiencia de estar perdido en el espacio”, y ciertamente cumple en ese frente (al menos para mis oídos):

https://techcrunch.com/wp-content/uploads/2023/01/audio-1.wav?_=1

Aquí hay otra muestra, generada a partir de una descripción que comienza con la oración “La banda sonora principal de un juego de arcade”. Plausible, ¿verdad?

https://techcrunch.com/wp-content/uploads/2023/01/audio.wav?_=2

Las capacidades de MusicLM se extienden más allá de generar clips cortos de canciones. Los investigadores de Google muestran que el sistema puede basarse en melodías existentes, ya sea tarareadas, cantadas, silbadas o tocadas con un instrumento. Además, MusicLM puede tomar varias descripciones escritas en secuencia (por ejemplo, “hora de meditar”, “hora de despertar”, “hora de correr”, “hora de dar el 100 %”) y crear una especie de “historia” o narrativa melódica. con una duración de varios minutos, perfectamente adecuado para la banda sonora de una película.

Vea a continuación, que proviene de la secuencia “canción electrónica que se reproduce en un videojuego”, “canción de meditación que se reproduce junto a un río”, “fuego”, “fuegos artificiales”.

https://techcrunch.com/wp-content/uploads/2023/01/example_2.wav?_=3

Eso no quiere decir que MusicLM sea perfecto, ni mucho menos, sinceramente. Algunas de las muestras tienen una calidad distorsionada, un efecto secundario inevitable del proceso de formación. Y aunque MusicLM técnicamente puede generar voces, incluidas armonías corales, dejan mucho que desear. La mayoría de las “letras” van desde apenas inglés hasta puro galimatías, cantadas por voces sintetizadas que suenan como fusiones de varios artistas.

Aún así, los investigadores de Google notan los muchos desafíos éticos que plantea un sistema como MusicLM, incluida la tendencia a incorporar material protegido por derechos de autor de los datos de entrenamiento en las canciones generadas. Durante un experimento, descubrieron que alrededor del 1 % de la música que generaba el sistema se reproducía directamente a partir de las canciones en las que entrenaba, un umbral aparentemente lo suficientemente alto como para disuadirlos de lanzar MusicLM en su estado actual.

“Reconocemos el riesgo de posible apropiación indebida de contenido creativo asociado con el caso de uso”, escribieron los coautores del artículo. “Hacemos hincapié en la necesidad de más trabajo futuro para abordar estos riesgos asociados con la generación de música”.

Suponiendo que MusicLM o un sistema similar esté disponible algún día, parece inevitable que surjan importantes problemas legales. Ya lo han hecho, aunque alrededor de sistemas de IA más simples. En 2020, el sello discográfico de Jay-Z presentó avisos de derechos de autor contra un canal de YouTube, Vocal Synthesis, por usar IA para crear versiones de Jay-Z de canciones como “We Didn’t Start the Fire” de Billy Joel. Después de eliminar inicialmente los videos, YouTube los restableció y descubrió que las solicitudes de eliminación estaban “incompletas”. Pero la música deepfake todavía se encuentra en un terreno legal turbio.

A papel blanco escrito por Eric Sunray, ahora pasante legal en la Asociación de Editores de Música, argumenta que los generadores de música de IA como MusicLM violan los derechos de autor de la música al crear “tapices de audio coherente de las obras que ingieren en el entrenamiento, infringiendo así el derecho de reproducción de la Ley de Derechos de Autor de los Estados Unidos. ” Tras el lanzamiento de Jukebox, los críticos también han cuestionado si entrenar modelos de IA en material musical protegido por derechos de autor constituye un uso justo. Se han planteado preocupaciones similares en torno a los datos de entrenamiento utilizados en los sistemas de IA que generan imágenes, códigos y texto, que a menudo se extraen de la web sin el conocimiento de los creadores.

Desde la perspectiva del usuario, Andy Baio de Waxy especula que la música generada por un sistema de IA se consideraría una obra derivada, en cuyo caso solo los elementos originales estarían protegidos por derechos de autor. Por supuesto, no está claro qué podría considerarse “original” en esa música; usar esta música comercialmente es adentrarse en aguas desconocidas. Es un asunto más simple si la música generada se usa para fines protegidos por el uso legítimo, como parodias y comentarios, pero Baio espera que los tribunales tengan que emitir juicios caso por caso.

Puede que no pase mucho tiempo antes de que haya algo de claridad al respecto. Es probable que varias demandas que se presenten en los tribunales tengan relación con la IA que genera música, incluida una relacionada con los derechos de los artistas cuyo trabajo se utiliza para entrenar sistemas de IA sin su conocimiento o consentimiento. Pero el tiempo lo dirá.

Source link