Ava expande su subtitulado de IA a aplicaciones web y de escritorio, y recauda $ 4.5 millones para escalar

El cambio mundial hacia los lugares de trabajo virtuales ha sido una bendición y una maldición para las personas con discapacidad auditiva. Hacer que la charla en la oficina ocurra en texto en lugar de en voz es más accesible, pero las reuniones virtuales no son más fáciles de seguir que las presenciales, razón por la cual la startup de subtítulos en tiempo real Ava ha visto un gran aumento en los usuarios. Montando la ola, la compañía acaba de anunciar dos nuevos productos y una ronda de semillas de $ 4.5 millones.

Ava anteriormente se hizo un nombre en la comunidad de sordos como una útil herramienta de transcripción en vivo para conversaciones de la vida real. Inicie la aplicación y escuchará y transcribirá instantáneamente el discurso a su alrededor, codificado por colores para cada orador (y nombrado si activan un código QR). Extremadamente útil, por supuesto, pero cuando las reuniones dejaron de ser en salas y comenzaron a ser en Zooms, las cosas se pusieron un poco más difíciles.

“Los casos de uso han cambiado drásticamente y la gente está descubriendo el hecho de que la mayoría de estas herramientas no son accesibles”, dijo a TechCrunch el cofundador y director ejecutivo Thibault Duchemin.

Y aunque algunas herramientas pueden tener subtítulos integrados limitados (por ejemplo, Skype y Google Meet), es posible que se guarden, se puedan editar, sean precisos o no resulten cómodos de revisar. Por ejemplo, los subtítulos efímeros de Meet, si bien son útiles, solo duran un momento antes de desaparecer y no son específicos del hablante, lo que los hace de uso limitado para una persona sorda o con problemas de audición que intenta seguir una llamada de varias personas. Y los idiomas en los que están disponibles también son limitados.

Como explicó Duchemin, comenzó a parecer mucho más práctico tener una capa de transcripción separada que no sea específica de ningún servicio.

Créditos de imagen: Ava

De ahí el nuevo producto de Ava, una aplicación de escritorio y web llamada Closed Captioning, que funciona con todos los principales servicios de reuniones y contenido en línea, subtitulándolos con la misma visualización en pantalla y haciendo que el contenido sea accesible a través de la misma cuenta. Eso incluye cosas como videos de YouTube sin subtítulos, transmisiones web en vivo e incluso contenido de solo audio como podcasts, en más de 15 idiomas.

Los oradores individuales se etiquetan automáticamente si una aplicación lo admite, como Zoom, o al hacer que las personas en la reunión hagan clic en un enlace que adjunta su identidad al sonido de su voz. (Aquí hay cuestiones de privacidad y confidencialidad, pero diferirán caso por caso y son secundarias a la capacidad fundamental de una persona para participar).

Todas las transcripciones van a la aplicación Ava de la persona, lo que les permite revisarlas en su tiempo libre o compartirlas con el resto de la reunión. Eso en sí mismo es un servicio difícil de encontrar, señaló Duchemin.

“En realidad es realmente complicado”, dijo. “Hoy, si tiene una reunión con cuatro personas, Ava es la única tecnología en la que puede tener un etiquetado preciso de quién dijo qué, y eso es extremadamente valioso cuando se piensa en la empresa”. De lo contrario, dijo, a menos que alguien esté tomando notas detalladas (improbables, costosas y que consuman mucho tiempo) las reuniones tienden a terminar en cajas negras.

Para una transcripción de tan alta calidad, la IA de voz a texto no es lo suficientemente buena, admitió. Es suficiente seguir una conversación, pero “estamos hablando de profesionales y estudiantes sordos o con problemas de audición”, dijo Duchemin. “Necesitan soluciones para reuniones y clases y en persona, y no están preparados para utilizar la IA completa. Necesitan que alguien limpie la transcripción, así que brindamos ese servicio “.

Créditos de imagen: Ava

Ava Scribe rápidamente incorpora a un humano entrenado no en transcripción directa sino en la corrección del producto de algoritmos de voz a texto. De esa manera, una persona sorda que asista a una reunión o clase puede seguirlo en vivo, pero también puede estar seguro de que cuando revise la transcripción una hora después, será exacta, no aproximada.

En este momento, las herramientas de transcripción se están utilizando como valor agregado a los productos y suites existentes, dijo: formas de atraer o retener clientes. No están comenzando con la comunidad de profesionales sordos y con problemas de audición ni están diseñando en torno a sus necesidades, que es lo que Ava se ha esforzado por hacer.

La explosión en popularidad y la utilidad obvia de su plataforma también ha llevado a esta ronda semilla de $ 4.5M, liderada por Initialized Capital y Khosla Ventures.

Duchemin dijo que esperaban duplicar el tamaño de su equipo con el dinero y comenzar realmente a comercializar y encontrar grandes clientes. “Somos muy especializados, por lo que necesitamos un modelo de negocio sólido para crecer”, dijo. Sin embargo, un producto fuerte y único es un buen punto de partida.

Source link