Las herramientas de generación de voz de ElevenLabs salen de la versión beta

Las herramientas de generación de voz de ElevenLabs salen de la versión beta

by

in

ElevenLabsla plataforma viral impulsada por IA para crear voces sintéticas, lanzó hoy su plataforma en versión beta con soporte para más de 30 idiomas.

Utilizando un nuevo modelo de inteligencia artificial desarrollado internamente, ElevenLabs dice que sus herramientas ahora son capaces de identificar automáticamente idiomas, incluidos el coreano, el holandés y el vietnamita, y generar un habla “emocionalmente rica” ​​en esos idiomas.

En combinación con el nuevo modelo, los clientes de ElevenLabs pueden aprovechar la herramienta de clonación de voz de la plataforma para hablar en casi 30 idiomas sin tener que escribir texto primero.

“ElevenLabs nació con el sueño de hacer que todo el contenido fuera universalmente accesible en cualquier idioma y con cualquier voz”, dijo en un comunicado el director ejecutivo y cofundador de ElevenLabs, Mati Staniszewski. “Con este lanzamiento, estamos un paso más cerca de hacer realidad este sueño y hacer que voces de IA con calidad humana estén disponibles en todos los dialectos. Nuestras herramientas de generación de texto a voz ayudan a nivelar el campo de juego y brindan capacidades de audio hablado de alta calidad a todos los creadores”.

Fundada por Staniszewski, que trabajó anteriormente en Palantir, y su amigo de la infancia Piotr Dabkowski, un ex empleado de Google, ElevenLabs ha sido noticia en los últimos meses por razones tanto bien y aborrecible. Inspirándose en el doblaje mediocre de las películas estadounidenses que Staniszewski y Dabkowski vieron mientras crecían en Polonia, la pareja se propuso diseñar una plataforma que pudiera funcionar mejor, empleando inteligencia artificial, por supuesto.

ElevenLabs se lanzó en versión beta a finales de enero y cobró impulso con bastante rapidez, debido a la alta calidad de las voces generadas y al generoso nivel gratuito. Pero como se mencionó anteriormente, la publicidad no ha sido consistentemente positiva, particularmente una vez que los malos actores explotaron la plataforma para sus propios fines.

El infame foro de mensajes 4chan, conocido por su contenido conspirativo, usado Herramientas de ElevenLabs para compartir mensajes de odio imitando a celebridades como la actriz Emma Watson. Por otra parte, James Vincent de The Verge pudo recurrir a ElevenLabs para clonar las voces de los objetivos en cuestión de segundos. generando muestras de audio que contienen de todo, desde amenazas de violencia hasta expresiones de racismo y transfobia.

En respuesta, ElevenLabs dijo que introduciría un conjunto de nuevas salvaguardas, como limitar la clonación de voz a cuentas pagas y proporcionar una nueva herramienta de detección de IA.

Sin embargo, ElevenLabs aún tiene que lidiar con la otra controversia que se está gestando en torno a su plataforma y otras plataformas similares: su amenaza a la industria de la actuación de voz.

tarjeta madre escribe sobre cómo a los actores de doblaje se les pide cada vez más que cedan los derechos de sus voces para que los clientes puedan usar la IA para generar versiones sintéticas que eventualmente podrían reemplazarlas. Mientras tanto, los correos electrónicos internos visto del New York Times indican que Activision Blizzard, uno de los mayores editores de juegos del mundo, está trabajando en herramientas para la “clonación de voz” asistida por IA.

Parecería que ElevenLabs ve esto como la progresión natural de las cosas, promocionando su trabajo con editores como Storytel; plataformas de medios como TheSoul Publishing y MNTN para audiolibros y contenido de radio; y editoriales como Embark Studios y Paradox Interactive para videojuegos (Storytel y TheSoul Publishing son inversores estratégicos). La compañía afirma que tiene más de un millón de usuarios registrados en los espacios creativos, de entretenimiento y editoriales que han creado contenido de audio para 10 años.

ElevenLabs, que recientemente recaudó 19 millones de dólares de inversores, incluidos Andreessen Horowitz y el cofundador de DeepMind, Mustafa Suleyman, con una valoración de 99 dólares, planea ampliar eventualmente sus modelos de IA al doblaje de voz, siguiendo los pasos de nuevas empresas como Papercup y Deepdub y construyendo lo que llama “una base para poder transferir emociones y entonación de un idioma a otro”.

Más allá de esto, ElevenLabs dice que planea introducir un mecanismo que permitirá a los usuarios compartir voces en la plataforma, aunque los detalles siguen siendo confusos.


Source link