Voice.ai recauda $ 6 millones a medida que su cambiador de voz en tiempo real se acerca a 500k usuarios

Servicios como Midjourney y ChatGPT han superado los límites de cómo la IA puede crear imágenes y texto a partir de indicaciones de texto básicas. Ahora, el audio parece ser la próxima frontera inevitable. La generación de música basada en indicaciones de palabras, los tutores de IA para el aprendizaje de idiomas y los simuladores de voz han experimentado avances en los últimos meses. Voz.ai espera ser parte de esa conversación (je) con tecnología que permite a los usuarios cambiar (y disfrazar) sus voces en tiempo real, y ahora ha recaudado su primera financiación externa inmediatamente después del crecimiento inicial.

Con más de 480 000 usuarios y una biblioteca de más de 50 000 filtros de voz, Voice.ai ha recaudado $6 millones, fondos que planea usar para llevar su tecnología de cambio de voz a nuevos lugares.

Mucker Capital y M13 lideran la ronda. Hasta ahora, Voice.ai ha crecido de boca en boca (la startup tiene un canal de Discord con más de 120 000 personas) gracias a los 3 millones de dólares de autofinanciación.

Actualmente, las herramientas de la compañía, disponibles como aplicaciones para Mac, PC, Android e iOS, están siendo adoptadas por jugadores, creadores de contenido, Vtubers y otros en TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us , Skype, Whatsapp y otras plataformas. La interfaz de Voice.ai les permite crear una nueva voz o seleccionar entre unas 50 000 voces diferentes creadas previamente (creadas y compartidas por usuarios como ellos), que pueden usarse tal cual o modificarse, para usar en vivo en plataformas compatibles, o para grabaciones.

El plan es utilizar los fondos para contratar más talento técnico y crear nuevos SDK y API para trabajar con más plataformas como Meta, Unreal y Unity; traer soporte multilingüe; y agregue nuevas aplicaciones como cantar donde la voz es el centro del escenario.

La puesta en marcha no lo destaca, pero será interesante ver si utiliza parte de los fondos también para aumentar la capacidad del servidor.

Esa no es una carga pequeña. Como anécdota, hemos escuchado que el dolor de la GPU es uno de los factores más importantes en la forma en que muchas aplicaciones de IA pueden escalar en este momento. (En parte, es por eso que está viendo grandes negocios que incluyen estrategias que brindan capacidad de procesamiento y servidor).

Específicamente para Voice.ai, su voz se procesa localmente y se canaliza hacia donde sea que se use a través de lo que el fundador y director ejecutivo, Heath Ahrens, me describió como un “cable de audio virtual”. Pero cuando miras las reseñas de sus aplicaciones, un lamento común es que cuando te registras te colocan en una lista de espera porque “la abrumadora demanda tiene nuestros servidores al máximo de su capacidad” con la promesa de que se te informará cuando el servicio aumente. capacidad.

Hay docenas de servicios de voz a voz y de voz a voz en el mercado hoy en día, y ya hay mucha actividad entre ellos: el año pasado, Spotify adquirió Sonantic y Snap compró un asistente de voz de IA incluso antes; otra startup Sanas está trabajando en cambiar tu acento y están los simuladores de voz Murf y Acapela, entre muchos otros. Voice.ai se incluye en la misma categoría general que Respeecher y ElevenLabs, dos nuevas empresas de inteligencia artificial de voz a voz, que permiten a los usuarios aplicar máscaras para modificar o transformar completamente sus voces, en algunos casos creando voces completamente sintéticas en lugar de las reales.

Respeto, fundada y con sede en Ucrania, se hizo un nombre ayudando a construir una nueva voz de Darth Vader para las nuevas entregas de Star Wars, basada en cómo sonaba James Earl Jones hace 45 años cuando originó el papel. (De acuerdo con un personaje empeñado en destruir mundos, La voz de Darth fue entregada al cliente de Hollywood desde sus oficinas en Ucrania mientras Rusia entraba al país).

ElevenLabs: famoso (o infamemente) según el caso puede ser), ha construido una plataforma que es terriblemente buena para clonar voces y, a principios de este mes, obtuvo su ronda de financiación más reciente de $ 19 millones de un grupo de inversores de renombre.

Voice.ai está tratando, en esa combinación, de posicionarse como la aplicación de modificación de voz AI para Everyman.

“Hay muchas empresas que están tratando de brindar un sabor diferente de tecnología de voz a las empresas”, dijo Ahrens a TechCrunch en un correo electrónico (irónicamente, no fue posible concertar una entrevista en vivo con él). Ahrens tiene algo de experiencia en la creación de tecnología de inteligencia artificial B2B: sus dos empresas anteriores, iSpeech para texto a voz y Haystack para reconocimiento facial, se basan en ofertas de API.

“Lo que distingue a Voice.ai es que estamos enfocados en llevar la tecnología que antes estaba reservada para las empresas directamente a las manos de los consumidores de una manera asequible”. Muchos usuarios, señaló, “vienen a nosotros desde la música clásica DSP cambiadores de voz y moduladores de voz que habían estado usando en el pasado y que siguen siendo populares entre muchos jugadores y streamers”.

“Asequible” viene en dos niveles, con la mayoría de los usuarios ahora en un servicio gratuito que requiere que opten por proporcionar poder computacional para entrenar los modelos de Voice.ai, con su servicio construido en su propio conjunto de datos privados compuesto por “millones de usuarios únicos”. usuarios”. No se proporcionan precios en el sitio: estamos solicitando esos detalles.

“Creemos en hacer que la tecnología sea accesible y planeamos trabajar junto con la comunidad de código abierto para democratizar la tecnología Voice AI”, agregó Ahrens.

Voice.ai también afirma que adopta lo que es un enfoque fundamentalmente diferente al desafío de cambiar una voz, aprovechando algunos de los valores que se han desarrollado en torno al uso de avatares por parte de Vtubers, jugadores y otros en línea.

“La mayoría de las empresas de IA de voz que ingresan al espacio intentan crear soluciones escalables de texto a voz centradas en la empresa o costosos servicios de voz a voz para estudios de producción”, dijo Ahrens. “Comenzamos desde el espectro opuesto y tratamos de ofrecer valor a las personas que buscan expandir su sonido en línea. La propuesta de valor central de nuestra IA de voz a voz no es que pueda replicar perfectamente a cualquier persona. Es que conserva los elementos centrales del discurso de un usuario: su emoción, ritmo y énfasis mientras reemplaza el sonido de la voz, para crear un nuevo resultado final completamente único, en tiempo real”.

Puede deberse a cómo se sesgan los datos demográficos en plataformas interactivas como los juegos, pero por ahora la audiencia de Voice.ai es 70% masculina frente a 30% femenina con nuevas categorías que se abren no solo sobre quién está usando la tecnología, sino también por qué.

Eso incluye no solo a aquellos que usan avatares y crean voces para que coincidan, o aquellos que buscan una mayor protección de la privacidad, sino también, dijo, “usuarios transgénero que pueden representarse a sí mismos con voces que coincidan con su identidad, así como usuarios que exploran sitios completamente nuevos en línea. personas por sí mismos.”

Ya existe una base de usuarios que aprovechan las ofertas directas al consumidor de Voice.ai, pero una de las razones por las que Mucker está invirtiendo en la puesta en marcha es porque cree que existe la oportunidad de construir una red de desarrolladores que usen e integren su tecnología.

“Voice.ai está preparado para revolucionar la comunidad de desarrolladores de IA de una manera similar al impacto de AdMob en la comunidad de desarrolladores de aplicaciones móviles”, dijo Omar Hamoui, socio del inversionista principal Mucker Capital. (Hamoui fundó anteriormente Admob, una startup de publicidad móvil, que finalmente adquirió Google, por lo que tiene experiencia directa en la creación de herramientas para desarrolladores móviles). desarrolladores de todo el mundo”.

Karl Alomar, exdirector de operaciones de Digital Ocean, que dirigió la inversión de M13, dijo que los inversores desempeñarán un papel activo en la próxima etapa de desarrollo. “En Digital Ocean también vimos el valor de construir una comunidad de constructores por constructores”, dijo. “Estamos emocionados de que los creadores y desarrolladores se basen en la plataforma Voice.ai”.

Source link