La IA VAL-E de Microsoft puede imitar su voz usando una muestra de audio de 3 segundos

La IA VAL-E de Microsoft puede imitar su voz usando una muestra de audio de 3 segundos

La gente de microsoft han creado un modelo de síntesis de audio basado en inteligencia artificial llamado VALL-E que necesita escuchar la voz de un humano durante solo tres segundos antes de comenzar a hablar como ellos. Ahora bien, Microsoft no es ajeno a la tecnología de inteligencia artificial de vanguardia, especialmente en 2023. ¿Recuerda Chat GPT, la inteligencia artificial conversacional que puede hablar como una persona erudita con conocimiento del mundo entero? Bueno, ChatGPT se ejecuta exclusivamente en los servidores Azure de Microsoft y su modelo de lenguaje natural está llegando a potenciar productos como la búsqueda de Bing y el conjunto de aplicaciones Office. ¡Imagínese decirle a Outlook que escriba un correo electrónico formal de licencia con un mensaje casual de una sola línea! Si bien las conversaciones sobre que Microsoft invertirá $ 10 mil millones en el creador de ChatGPT están en todas partes, sus expertos también están prestando mucha atención al lado del audio. El resultado es VALL-E, un modelo de conversión de texto a voz que necesita sólo un clip de audio de tres segundos de la voz de una persona para generar un audio sintético inquietantemente similar, diciendo lo que se le envía en forma de indicaciones de texto. El potencial de tal innovación es enorme. Imagínese escuchar a Gandhi recitar su libro después de entrenar a VALL-E usando uno de sus raros clips de audio. VALL-E se basa en una técnica llamada modelo de lenguaje de códec neuronal, que no sólo aprende de las palabras que se pronuncian, sino también de la forma única en que se pronuncian y del flujo tonal de las oraciones.

VALL-E es terriblemente bueno

“/>

VAL-E es “el primero en utilizar códigos de códec de audio como representaciones intermedias y emerger la capacidad de aprendizaje en contexto en.” El equipo detrás escribe en el artículo de investigación que VALL-E ofrece el mismo tipo de capacidades de aprendizaje basadas en el contexto que la plataforma ChatGPT de OpenAI. Sin embargo, la mayor victoria de VALL-E no es la rapidez con la que puede aprender, sino la naturalidad del habla que ofrece y lo inquietantemente similar que es a la voz humana de referencia. Otro logro es lo que el equipo llama mantenimiento del entorno acústico. En pocas palabras, si la voz de la muestra de entrenamiento tiene algún tipo de reverberación de fondo, el habla sintetizada creada por el programa también tendrá esas características de sonido.

Pero lo que es realmente preocupante (y algo que hará que sea más difícil separar el discurso real de una recitación VALL-E) es la retención de emociones. El trabajo de investigación señala que “VALL-E puede preservar la emoción en el mensaje en una configuración de disparo cero.” Para comprender las emociones, se basa en un conjunto de datos llamado EmoV-DB, que se centra en cinco emociones centrales que se reflejan en las conversaciones naturales de una persona. Mientras genera sus propios clips de audio, VALL-E puede copiar la misma emoción que era identificable en el mensaje original. Pero VALL-E no es perfecto y todavía existen algunas limitaciones técnicas. Por ejemplo, en ocasiones las palabras pueden duplicarse o simplemente resultar incomprensibles. Además, un entrenamiento de datos equivalente a 60 horas de audio puede parecer mucho, pero aún no es lo suficientemente diverso, especialmente cuando se consideran diferentes acentos y tonos.

La tecnología de Microsoft es impresionante. En realidad, es impresionante y el equipo reconoce el potencial de uso indebido. El artículo de investigación señala que los malos actores pueden usarlo para suplantar o hacerse pasar por otra persona sin su conocimiento. Se desata el infierno cuando los estafadores ponen sus manos en tecnología como esa. También explica por qué no existe una versión pública de VALL-E para jugar, a diferencia de otras herramientas de inteligencia artificial populares como ChatGPT, DALL-E y Stable Diffusion, entre otras. Afortunadamente, el artículo de investigación menciona que es posible construir un modelo que pueda detectar el habla real a partir de uno generado por VALL-E. Por ahora, microsoft no ha dicho si planea lanzar una versión pública de VALL-E ni cuándo.

Fuente: GitHub, arXiv, Steven Tey/Twitter




Source link