Ícono del sitio La Neta Neta

Speechmatics recauda 62 millones de dólares para su enfoque inclusivo de la IA de voz a texto

Speechmatics recauda 62 millones de dólares para su enfoque inclusivo de la IA de voz a texto

La semana pasada escribí sobre una startup de IA que está construyendo tecnología que puede alterar, en tiempo real, el acento del habla de alguien. Pero, ¿qué pasa si el objetivo de la IA es hacer posible que las personas hablen de la manera que lo hagan, sean entendidas tal como son y eliminar algunos de los sesgos inherentes a muchos sistemas de IA en el proceso? También hay una gran necesidad de eso, y ahora una startup del Reino Unido llamada Discursomática — que ha creado IA para traducir voz a texto, independientemente del acento o de cómo hable la persona — anuncia una financiación de 62 millones de dólares para ampliar su negocio.

Susquehanna Growth Equity de EE. UU. lideró la ronda con la participación de los inversores británicos AlbionVC e IQ Capital. Esta es la Serie B es un gran paso adelante para Speechmatics. La compañía se separó originalmente en 2006 de la investigación de IA en Cambridge por el fundador, el Dr. Tony Robinson, y antes de esto solo había recaudado alrededor de $ 10 millones (Albion e IQ se encuentran entre los patrocinadores anteriores, junto con In-Q respaldado por la CIA). -Tel y otros).

Mientras tanto, ha creado una base de clientes de unos 170 (solo vende B2B, para potenciar los servicios orientados al consumidor o orientados a las empresas) y aunque no revela la lista completa, algunos de los nombres incluyen what3words, 3Play Media , Veritone, Deloitte UK y Vonage, que utilizan la tecnología de diversas formas no solo para hacer transcripciones en el sentido tradicional; sino para tomar palabras habladas para ayudar a otros aspectos de la función de una aplicación, como los subtítulos automáticos, o para potenciar funciones de accesibilidad más amplias.

Actualmente, su motor puede traducir voz a texto en 34 idiomas y, además de usar los fondos para continuar mejorando la precisión allí y para el desarrollo comercial, también agregará en más idiomas y analizará diferentes casos de uso, como como la construcción de voz a texto que se puede usar en el entorno más complicado de los vehículos motorizados (donde el ruido y las vibraciones del motor afectan la forma en que las IA pueden ingerir los sonidos).

“Lo que hemos hecho es recopilar millones de horas de datos en nuestro esfuerzo por abordar el sesgo de la IA. Nuestro objetivo es entender todas y cada una de las voces, en varios idiomas”, dijo Katy Wigdahl, directora ejecutiva de la startup (un cargo que ocupó junto con Robinson, quien desde entonces se retiró de un puesto ejecutivo recientemente).

Esto se manifiesta en el enfoque de producto de la empresa, así como en su misión, y eso es algo que también busca expandir.

“La forma en que vemos el lenguaje es global”, dijo Wigdahl. “Google tendrá un paquete diferente para cada versión de inglés, pero nuestro paquete comprenderá todas”. Inicialmente, solo puso a disposición su tecnología a través de una API privada que vendió a los clientes; ahora, en un esfuerzo por atraer a más usuarios y potencialmente más usuarios que pagan, también ofrece más herramientas API abiertas a los desarrolladores para jugar con la tecnología, y una muestra de arrastrar y soltar en su sitio.

Y, de hecho, si uno de los desafíos de Speechmatics es entrenar a la IA para que sea más humana en su comprensión de cómo hablan las personas, el otro es labrarse un nombre frente a otros proveedores importantes de tecnología de voz a texto.

Wigdahl dijo que la empresa hoy compite contra la “gran tecnología”, es decir, las principales empresas como Amazon, Google y Microsoft (que ahora tiene Nuance) que han creado motores de reconocimiento de voz y brindan la tecnología como un servicio a terceros.

Pero dice que consistentemente puntúa mejor que estos en las pruebas por ser capaz de comprender cuando los idiomas se hablan de las muchas maneras en que lo son. (Una prueba que me citó fue el estudio ‘Disparidades raciales en el reconocimiento del habla’ de Stanford, donde registró “una precisión general del 82,8 % para las voces afroamericanas en comparación con Google (68,6 %) y Amazon (68,6)”. Decía que ” equivale a una reducción del 45 % en los errores de reconocimiento de voz, el equivalente a tres palabras en una oración promedio. También proporcionó a TC un “promedio ponderado de la competencia”:

Sin embargo, existe una gran oportunidad aquí, si considera que entre los desarrolladores más pequeños y los gigantes tecnológicos masivos y descomunales como Apple, Google, Microsoft y Amazon, hay cientos de compañías gigantes que podrían no estar al nivel (o interés) de construyendo IA interna para este propósito, pero si tomas, por ejemplo, una empresa como Spotify, definitivamente estás interesado en ella y definitivamente preferirías no depender de esas grandes empresas, que a veces también son sus competidores, y a veces sus láminas absolutas. (Para ser claros, Wigdahl no me dijo que Spotify era un cliente, pero dijo que ese es un ejemplo típico del tipo de tamaño y situación en la que alguien podría llamar a la puerta de Speechmatics).

Ese también ha sido en parte el motivo por el que los inversores están tan interesados ​​en financiar esta empresa. Susquehanna tiene un historial de respaldo a compañías que parecen que podrían hacer que los jugadores poderosos compitan por su dinero (fue uno de los primeros y grandes patrocinadores de Tik Tok).

“El equipo de Speechmatics es, sin duda, un pedigrí diferente de tecnólogos”, dijo Jonathan Klahr, MD de Susquehanna Growth Equity, en un comunicado. “Empezamos a hacer un seguimiento de Speechmatics cuando las empresas de nuestra cartera nos dijeron que una y otra vez Speechmatics ganaba en precisión frente a todas las demás opciones, incluidas las que procedían de jugadores de ‘Big Tech’. Estamos preparados para trabajar con el equipo para garantizar que más empresas puedan conocer y adoptar esta tecnología superior”. Klahr se une al tablero con esta ronda.

De hecho, a medida que la tecnología se vuelve más naturalizada y aquellos que la fabrican buscan más formas de reducir cualquier fricción que pueda haber en torno al uso de esa tecnología, la voz se ha convertido en un importante punto de oportunidad, así como un punto de dolor. Por lo tanto, tener tecnología que funcione en la “lectura” y la comprensión de todo tipo de voces puede aplicarse potencialmente de muchas maneras.

“Nuestra opinión es que la voz se convertirá en la interfaz hombre-máquina cada vez más dominante y Speechmatics es la categoría líder en la aplicación del aprendizaje profundo al habla, con precisión y comprensión que definen la categoría en todos los casos de uso y requisitos de la industria”, agregó Robert Whitby-Smith, socio. en AlbionVC. “Hemos sido testigos del impresionante crecimiento del equipo y el producto en los últimos años desde nuestra inversión Serie A en 2019 y, como inversores responsables, estamos encantados de apoyar la misión inclusiva de la empresa de comprender cada voz a nivel mundial”.


Source link
Salir de la versión móvil