La plataforma de generación de voz ElevenLabs recauda $ 19 millones y lanza una herramienta de detección

ElevenLabsla plataforma viral impulsada por IA para crear voces sintéticas, ha recaudado una nueva ronda de efectivo.

Hoy, la startup anunció el cierre de una ronda Serie A de $19 millones codirigida por los empresarios Nat Friedman y Daniel Gross junto con Andreessen Horowitz. Otros participantes incluyeron a los pesos pesados Creator Ventures, SV Angel, el cofundador de Instagram Mike Krieger, el cofundador de Oculus Brendan Iribe, el cofundador de Deepmind e Inflection AI Mustafa Suleyman y el fundador de O’Reilly Media, Tim O’Reilly.

Una fuente familiarizada con el asunto le dice a TechCrunch que el tramo valora a ElevenLabs en $ 99 millones después del dinero, una cifra respetable, especialmente considerando que la puesta en marcha se lanzó hace poco más de un año.

“Esta inversión se utilizará para continuar construyendo el centro de investigación de vanguardia de ElevenLab para inteligencia artificial de voz y para lanzar una gama de productos adicionales para respaldar mercados verticales específicos, como publicaciones, juegos, entretenimiento y aplicaciones conversacionales”, cofundador y director ejecutivo Mati Staniszewski. le dijo a TechCrunch por correo electrónico.

ElevenLabs, que ha sido noticia en los últimos meses por razones tanto bien y aborrecible, fue fundado por Staniszewski, quien anteriormente trabajó en Palantir, y su amigo de la infancia Piotr Dabkowski, un ex empleado de Google. Inspirados por el doblaje mediocre de películas estadounidenses que vieron crecer en Polonia, su país natal, la pareja se dispuso a diseñar una plataforma que podría funcionar mejor, aprovechando la IA, por supuesto.

ElevenLabs puede convertir texto en voz usando voces sintéticas, voces clonadas o voces “artificiales” completamente novedosas que imitan los sonidos de personas de varios géneros, edades y etnias. Los modelos de texto a voz de IA de la compañía son independientes del idioma, lo que permite a los clientes corporativos ajustarlos y construir sus propios modelos de voz propietarios.

Coincidiendo con el aumento de la Serie A, ElevenLabs, de 15 empleados, está lanzando Proyectos, un flujo de trabajo para editar y crear contenido hablado de formato largo. Con Proyectos, los usuarios pueden generar segmentos de diálogo e incluso audiolibros sin tener que salir de la plataforma.

“Para los socios de empresa a empresa, nuestra tecnología se puede utilizar en áreas como la creación de audiolibros escalables y multilingües, la expresión de personajes en videojuegos, la expresión de artículos digitales, el apoyo a las personas con discapacidad visual para acceder a contenido escrito en línea y potenciar la radio AI”, Staniszewski dicho.

ElevenLabs, que se lanzó en versión beta a fines de enero, cobró impulso con bastante rapidez, debido a la calidad extremadamente alta de sus voces generadas, los tiempos de generación rápidos y la generosa capa gratuita. Pero como se mencionó anteriormente, la publicidad no siempre ha sido positiva, particularmente una vez que los malos actores comenzaron a explotar la plataforma para sus propios fines.

ElevenLabs ofrece herramientas para clonar, o generar desde cero, voces con un sonido realista, aprovechando la IA.

4chan, el infame tablero de mensajes conocido por su contenido conspirativo, usado La herramienta de ElevenLabs para compartir mensajes de odio imitando a celebridades como la actriz Emma Watson. En otro lugar, James Vincent de The.Verge pudo aprovechar ElevenLabs para clonar las voces de los objetivos en cuestión de segundos: generando muestras de audio que contienen de todo, desde amenazas de violencia hasta expresiones de racismo y transfobia.

En respuesta, ElevenLabs dijo que introduciría un conjunto de nuevas medidas de seguridad, como limitar la clonación de voz a cuentas pagas, prohibir a los usuarios que violan repetidamente sus términos de servicio y proporcionar una nueva herramienta de detección de IA.

La herramienta de detección se lanza hoy. Llamado AI Speech Classifier y disponible como API para socios “seleccionados”, está diseñado para detectar si una muestra de audio cargada contiene contenido generado por IA de ElevenLabs.

“Garantizar que las plataformas de IA generativa se puedan adoptar de manera segura es un desafío clave para todo el sector generado por IA, incluidas las plataformas de texto, imagen y voz”, dijo Staniszewski. “Debemos asegurarnos de que las personas estén educadas sobre la naturaleza del panorama de los medios generativos y sepan que dicho contenido existe; estamos comprometidos a crear herramientas para ayudar a las personas a detectar contenido generado por IA, en aras de la transparencia”.

Una herramienta de detección voluntaria, suponiendo que funcione como se anuncia, no disuadirá necesariamente el mal comportamiento. Pero hay otro elefante en la habitación que ElevenLabs no ha abordado: la amenaza existencial que su tecnología representa para los actores de doblaje.

tarjeta madre escribe sobre cómo se les pide cada vez más a los actores de doblaje que firmen los derechos de sus voces para que los clientes puedan usar IA para generar versiones sintéticas que eventualmente podrían reemplazarlas, a veces sin compensación adicional. Correos electrónicos internos visto por The New York Times, mientras tanto, indican que Activision Blizzard, uno de los editores de juegos más grandes del mundo, está trabajando en herramientas para la “clonación de voz” asistida por IA.

Parecería que ElevenLabs ve esto como la progresión natural de las cosas, promocionando su trabajo con editoriales como Storytel y plataformas de medios como TheSoul Publishing y MNTN para audiolibros, videojuegos y contenido de radio. (Storytel y TheSoul Publishing son inversores estratégicos). La empresa afirma que tiene más de un millón de usuarios registrados en los espacios creativos, de entretenimiento y editoriales que han creado contenido de audio para diez años.

ElevenLabs planea eventualmente extender sus modelos de IA al doblaje de voz, siguiendo los pasos de nuevas empresas como Papercup y Deepdub y construyendo lo que llama “una base para poder transferir emociones y entonación de un idioma a otro”.

“Esto permitirá doblar cualquier video a cualquier idioma de una manera atractiva, efectiva y escalable, todo mientras se mantiene la voz del orador original”, escribe ElevenLabs en un comunicado de prensa. “[We are] ya está realizando una serie de pruebas con socios de la industria para permitir el doblaje de IA a escala”.

Con $ 21 millones en el banco ($ 2 millones de los cuales provinieron de una ronda previa a la semilla en enero), ElevenLabs, al diablo con las consecuencias, se enfoca con láser en vencer a sus rivales en el floreciente espacio de voz generativa. Incluyen titulares como Amazon, Google y Microsoft, así como nuevas empresas como Murf, Tavus, Resemble AI, Respeecher, Play.ht y Lovo.

Source link