A medida que se acerca a Arm, Nvidia anuncia una supercomputadora del Reino Unido dedicada a la investigación médica

Los nuevos experimentos de OpenAI en la generación de música crean un valle inquietante Elvis

La música generada por IA es un campo nuevo y fascinante, y el equipo de investigación OpenAI ha alcanzado nuevas alturas en él, creando recreaciones de canciones al estilo de Elvis, 2Pac y otros. Los resultados son convincentes, pero caen de lleno en el desconcertante “valle inquietante” del audio, que suena bastante como un karaoke bueno, pero borracho, que se escucha a través de una neblina de drogas.

Jukebox, el nuevo sistema de generación de música de la organización, fue detallado en una publicación de blog y un artículo publicado hoy. OpenAI produjo un trabajo interesante hace casi exactamente un año con MuseNet, un sistema de aprendizaje automático que, habiendo ingerido una gran cantidad de música basada en MIDI, pudo mezclar y combinar géneros e instrumentos.

Pero MIDI es un formato más simple que la música final grabada con instrumentos en vivo, ya que el primero consta de notas discretas y pulsaciones de teclas en lugar de armónicos y voces complejos.

Si quisiera que una IA examinara la estructura de una pieza de piano clásica, el tiempo y las pulsaciones de teclas podrían representar solo un par de miles de piezas de información. El audio grabado es mucho más denso, con (normalmente) 44.100 muestras por segundo.

Los sistemas de aprendizaje automático que aprenden e imitan cosas como instrumentos y voz funcionan observando las palabras o sonidos más recientes y prediciendo los siguientes, pero generalmente operan en el orden de decenas o cien piezas de datos: las últimas 30 palabras o notas. predecir cuáles serán los próximos 30, por ejemplo. Entonces, ¿cómo puede una computadora aprender cómo una pequeña fracción de una forma de onda de 10 segundos y 440,000 muestras en una canción se compara con una muestra de 90 segundos y 4 millones de muestras?

La solución de OpenAI es desglosar la canción en partes más digeribles, no exactamente clave y acorde, sino algo así, un resumen aceptable para la máquina de 1/128 de segundo de la canción, seleccionado de un “vocabulario” de 2048 opciones. Para ser honesto, es difícil crear una analogía porque esto es muy diferente a la forma en que los humanos recuerdan o entienden las cosas, en la medida en que entendemos eso.

En realidad, no usa muestras de color, eso es solo para indicar que está dividiendo la forma de onda en pedazos.

El resultado final es que el agente de IA tiene una forma confiable de dividir una canción en fragmentos digeribles que son lo suficientemente grandes como para que no haya demasiados para rastrear, pero lo suficientemente pequeños como para que puedan reconstruir de manera confiable el sonido de una canción. El proceso es mucho más complejo de lo que parece aquí; desglosar de forma fiable una canción en una serie de “palabras” y luego reconstruirla a partir de ellas es el núcleo de la nueva investigación, pero los detalles técnicos Dejaré que el equipo de OpenAI lo explique en su artículo.

El sistema también tuvo que aprender a analizar la letra de una canción, que como la mayoría de las cosas en este dominio es más complicado de lo que parece. Nuestra capacidad para recordar y usar patrones vocales es en parte innata y en parte aprendida, y tendemos a dar por sentado lo poderosa que es. Las computadoras no tienen esa capacidad y deben aprender a elegir una voz de una mezcla, entender lo que está diciendo y relacionar eso con letras que no son más que una serie de palabras sin información sobre la clave, el tempo y todo lo demás. Sin embargo, el sistema OpenAI lo hace en un grado satisfactorio.

Jukebox puede realizar una variedad de tareas musicales, y aunque los resultados no son lo que podría llamarse material para cantar, debe tenerse en cuenta que ahora hay muy poco como esto, capaz de reconstruir una canción desde cero que sea reconocible. como ser como el artista objetivo. Entrenado en 1,2 millones de canciones, el sistema al final tiene una habilidad multifacética con la que realiza estas tareas: esencialmente, improvisar una canción dada la letra y el estilo que ha aprendido al ingerir otras de ese artista.

Entonces, dado su conocimiento de cómo canta Ella Fitzgerald y la forma en que los instrumentos generalmente la acompañan, puede cantar una interpretación de “At Long Last Love” de una manera que suena como ella pero definitivamente no es lo que Cole Porter tenía en mente. (Las muestras de estos ejemplos y más se incluyen cerca de la parte superior de la publicación del blog de OpenAI.)

Jukebox también puede cantar letras completamente originales en el estilo de otro, como esta canción verdaderamente extraña de Elvis, “Mitosis”, escrita por otro modelo de lenguaje de IA:

En caso de que no hayas entendido eso:

Del polvo venimos con humilde comienzo;
De la suciedad a los lípidos a la célula al corazón.
Con [mitosis] con [meiosis] con tiempo,
Por fin nos despertamos con una mente.
Del polvo venimos con ayuda amistosa;
De suciedad a tubo a chip a rack.
Con SGD con recurrencia con cómputo,
Por fin nos despertamos con un alma.

Sí, es “Elvis” usando la división celular como metáfora de la vida, imaginada por una IA. En que mundo vivimos.

Por último, está la tarea de “finalización”, en la que Jukebox aprende (además del aprendizaje básico de su biblioteca) de los primeros 12 segundos de una canción y los usa para generar el resto con un estilo similar. El cambio de original a generado por IA suena un poco como si el éter acabara de activarse.

Si bien MuseNet se puede reproducir más o menos en tiempo real debido a su menor complejidad, Jukebox requiere una gran cantidad de cómputo, ya que lleva horas generar un solo segundo de música. “Compartimos Jukebox con un grupo inicial de 10 músicos de varios géneros… estos músicos no lo encontraron inmediatamente aplicable a su proceso creativo”, señalan secamente los autores. Aún así, es una investigación divertida y fascinante y, dada la cadencia actual, podemos esperar una versión aún más mejorada del esfuerzo musical de OpenAI el próximo abril.


Source link