Por qué AWS vende un teclado MIDI para enseñar aprendizaje automático

Por qué AWS vende un teclado MIDI para enseñar aprendizaje automático

A principios de esta semana, AWS lanzó DeepComposer, un conjunto de herramientas basadas en la web para aprender sobre IA para hacer música y un teclado MIDI de $99 para ingresar melodías. Ese lanzamiento creó bastante confusiónasí que nos sentamos con Mike Miller, el director del grupo de dispositivos de IA de AWS, para hablar sobre dónde encaja DeepComposer en la línea de dispositivos de IA de la compañía, que incluye la cámara DeepLens y el automóvil DeepRacer AI, los cuales están destinados a también enseñe a los desarrolladores sobre conceptos específicos de IA.

Lo primero que es importante recordar aquí es que DeepComposer es una herramienta de aprendizaje. No está destinado a músicos, está destinado a ingenieros que desean aprender sobre IA generativa. Pero AWS no se ayudó a sí mismo llamando a este “el primer teclado musical del mundo habilitado para aprendizaje automático para desarrolladores”. El teclado en sí, después de todo, es solo un teclado MIDI estándar y básico. No hay inteligencia en ello. Todo el trabajo de IA está ocurriendo en la nube.

“El objetivo aquí es enseñar IA generativa como una de las tendencias más interesantes en el aprendizaje automático de los últimos 10 años”, nos dijo Miller. “Le dijimos específicamente a las GAN, redes antagónicas generativas, donde hay dos redes que se entrenan juntas. La razón que es interesante desde nuestra perspectiva para los desarrolladores es que es muy complicado y muchas de las cosas que los desarrolladores aprenden sobre el entrenamiento de modelos de aprendizaje automático se confunden cuando se entrenan dos juntos”.

Con DeepComposer, el desarrollador pasa por un proceso de aprendizaje de los conceptos básicos. Con el teclado, puede ingresar una melodía básica, pero si no la tiene, también puede usar un teclado en pantalla para comenzar o usar algunas melodías predeterminadas (piense en Ode to Joy). Desde una perspectiva práctica, el sistema sale y genera una pista de fondo para esa melodía basada en un estilo musical que elijas. Sin embargo, para simplificar las cosas, el sistema ignora algunos valores del teclado, incluida la velocidad (en caso de que necesite más evidencia de que este no es un teclado para músicos). Pero lo que es más importante, los desarrolladores también pueden profundizar en los modelos reales que generó el sistema, e incluso exportarlos a un cuaderno Jupyter.

A los efectos de DeepComposer, los datos MIDI son solo otra fuente de datos para enseñar a los desarrolladores sobre GAN y SageMaker, la plataforma de aprendizaje automático de AWS que impulsa a DeepComposer en segundo plano.

“La ventaja de usar archivos MIDI y basar el entrenamiento en MIDI es que la representación de los datos que entran en el entrenamiento está en un formato que en realidad es la misma representación de datos en una imagen, por ejemplo”, explicó Miller. “Entonces, en realidad es muy aplicable y análogo, por lo que, como desarrollador, mire esa computadora portátil SageMaker y comprenda el formato de los datos y cómo pasamos los datos, eso también es aplicable a otros dominios”.

Es por eso que las herramientas también exponen todos los datos sin procesar, incluidas las funciones de pérdida, análisis y los resultados de los diversos modelos a medida que intentan llegar a un resultado aceptable, etc. Debido a que esta es obviamente una herramienta para generar música, también expone algunos de los datos sobre la música, como el tono y los compases vacíos.

“Creemos que a medida que los desarrolladores ingresen a los modelos de SageMaker, verán que puedo aplicar esto a otros dominios y puedo tomar esto y hacerlo mío y ver qué puedo generar”, dijo Miller.

Habiendo escuchado los resultados hasta ahora, creo que es seguro decir que DeepComposer no producirá ningún éxito pronto. Parece bastante bueno para crear una pista de batería, pero las líneas de bajo parecen un poco erráticas. Aún así, es una demostración genial de esta técnica de aprendizaje automático, aunque supongo que su éxito será un poco más limitado que DeepRacer, que es un concepto que es un poco más fácil de entender para la mayoría, ya que la mayoría de los desarrolladores verán piensa que necesita saber tocar un instrumento para usarlo y sigue adelante.

Información adicional de Ron Miller.


Source link