¿Qué es la caja de voz?  La IA multilingüe generadora de voz de Meta

¿Qué es la caja de voz? La IA multilingüe generadora de voz de Meta

Meta ha introducido un nuevo modelo de IA llamado Voicebox que puede generar voz en numerosos idiomas y dialectos, y actuar ‘como un borrador para edición de audio‘ para limpiar grabaciones que de otro modo se arruinarían por ruido de fondo o errores de habla. La compañía ha estado invirtiendo todo en la IA y, según se informa, tiene planes de integrar la tecnología en todo su ecosistema de aplicaciones sociales. En mayo, Meta compartió una demostración de un modelo de inteligencia artificial llamado ImageBind que puede generar resultados utilizando múltiples tipos de datos a la vez, como audio, imágenes y texto.

Voicebox es un modelo de IA generativa para el habla. En una publicación de blog, Meta muestra cómo puede convertir indicaciones de texto en audio hablado en varias voces y estilos de habla. Según la compañía, se le puede alimentar con una breve muestra de audio y hacer coincidir esa voz en sus resultados. Actualmente es capaz de leer texto en seis idiomas (inglés, francés, alemán, español, polaco y portugués) y puede recibir indicaciones de un idioma y hablarlas en voz alta en otro. Voicebox todavía se encuentra en la etapa de investigación, pero el director ejecutivo de Meta, Mark Zuckerberg, ya dice que es “Probablemente el modelo generativo de voz más versátil que existe..”

Para qué se podría utilizar Voicebox AI

“/>

En un ejemplo de sus capacidades de edición de audio, Meta usa Voicebox para editar el sonido de un perro ladrando a partir de una muestra de voz grabada. La herramienta no sólo elimina el ruido de fondo, sino que también puede regenerar los componentes hablados afectados para obtener resultados perfectos. Si alguien tropieza con sus palabras en una grabación, Voicebox podría usarse para intercambiar una versión corregida sin necesidad de volver a grabar el discurso. Meta dice que la herramienta puede imitar el estilo de hablar de una persona usando solo dos segundos de audio de referencia.

Este tipo de tecnología podría usarse en el futuro para ayudar a los creadores a editar fácilmente pistas de audio, permitir que las personas con discapacidad visual escuchen mensajes escritos de amigos en sus voces y permitir que las personas hablen cualquier idioma extranjero con su propia voz.”, señala la publicación del blog. Meta también dice que Voicebox podría usarse para mejorar las voces de asistentes virtuales y NPC (personajes no jugadores) de videojuegos, ayudándolos a sonar más realistas. Con sus capacidades de traducción, también podría ayudar a las personas a comunicarse a través de las barreras del idioma.

Sin embargo, existen preocupaciones obvias que surgen con un modelo de IA que potencialmente puede imitar la voz de una persona. Entonces, si bien Meta a menudo hace que sus proyectos de investigación de IA sean de código abierto, no publica el código de Voicebox. En cambio, tendremos que esperar y ver qué Meta tiene reservado para ello.

Fuente: Meta 1, 2


Source link