La investigación de WellSaid Labs lleva el habla sintética de clips de segundos a horas

Millones de hogares tienen dispositivos habilitados para voz, pero ¿cuándo fue la última vez que escuchó un fragmento de voz sintetizada de más de unos pocos segundos? Laboratorios WellSaid ha impulsado el campo con un motor de voz que puede generar fácil y rápidamente horas de contenido de voz que suena tan bien o mejor que los fragmentos que escuchamos todos los días de Siri y Alexa.

La compañía ha estado trabajando desde su debut público el año pasado para hacer avanzar su tecnología de una demostración impresionante a un producto comercial, y en el proceso encontró un nicho lucrativo en el que puede construir.

El CTO Michael Petrochuk explicó que, desde el principio, la empresa había basado esencialmente su tecnología en investigaciones anteriores: el proyecto Tacotron de Google, que estableció un nuevo estándar de realismo en el habla artificial.

“A pesar de haber sido lanzado hace dos años, Tacotron 2 sigue siendo lo último en tecnología. Pero tiene un par de problemas”, explicó Petrochuk. “Primero, no es rápido: se necesitan tres minutos para producir un segundo de audio. Y está construido para modelar 15 segundos de audio. Imagine que en un flujo de trabajo en el que está generando 10 minutos de contenido, está lejos de donde queremos estar”.

WellSaid reconstruyó completamente su modelo con un enfoque en la velocidad, la calidad y la duración, lo que suena como “centrarse” en todo a la vez, pero siempre hay muchos más parámetros para optimizar. El resultado es un modelo que puede generar voz de muy alta calidad con cualquiera de las 15 voces (y varios idiomas) aproximadamente a la mitad del tiempo real, por lo que un clip de un minuto tardaría unos 36 segundos en generarse en lugar de un par de horas.

Esta capacidad aparentemente básica tiene muchos beneficios. No solo es más rápido, sino que hace que trabajar con los resultados sea más sencillo y fácil. Como productor de contenido de audio, puede introducir un guión de cientos de palabras, escuchar lo que emite y luego modificar su pronunciación o cadencia con unas pocas pulsaciones de teclas. Tacotron cambió el espacio del habla sintética, pero en realidad nunca ha sido un producto. WellSaid se basa en sus propios avances para crear una pieza de software utilizable y posiblemente un mejor sistema de voz en general.

Como evidencia, los clips generados por el modelo, de 15 segundos, para que puedan competir con Tacotron y otros, alcanzaron el hito de ser igualmente calificados como voces humanas en las pruebas organizadas por WellSaid. No existe una medida objetiva para este tipo de cosas, pero pedirles a muchos humanos que evalúen qué tan humano suena algo es un buen lugar para comenzar.

Como parte del trabajo del equipo para lograr la “paridad humana” en estas condiciones, también lanzaron una serie de clips de audio que demuestran cómo el modelo puede producir contenido mucho más exigente.

Generaba un habla plausible en español, francés y alemán (no soy un hablante nativo de ninguno de ellos, así que no puedo decir más que eso), mostró su facilidad con palabras complejas y lingüísticamente difíciles (como estequiometría y halogenación). ), palabras que difieren según el contexto (buffet, desert), etc. El logro supremo debe ser una lectura continua de 8 horas de la totalidad de “Frankenstein” de Mary Shelley.

Pero los audiolibros no son la industria que WellSaid está utilizando como una escalera de mano para seguir avanzando. En cambio, están haciendo un montón de dinero trabajando en el campo tremendamente aburrido pero necesario de la capacitación corporativa. Ya sabes, el tipo de videos que explican políticas, documentan el uso de herramientas internas y explican las mejores prácticas para ventas, administración, herramientas de desarrollo, etc.

El material de aprendizaje corporativo generalmente es único o al menos se adapta a cada empresa, y puede implicar horas de audio, una alternativa a decir: “Toma, lee este paquete” o reunir a todos en una sala para ver un DVD de décadas de antigüedad sobre la conducta en la oficina. No es el lugar más emocionante para poner a trabajar una tecnología tan poderosa, pero la verdad es que con las nuevas empresas no importa cuán transformadora creas que es tu tecnología, si no ganas dinero, estás hundido.

Créditos de imagen: Laboratorios WellSaid

“Encontramos un punto dulce en el campo de la capacitación corporativa, pero para el desarrollo de productos nos ha ayudado a construir estos elementos fundamentales para un espacio cada vez más grande”, explicó el Jefe de Crecimiento Martín Ramírez. “La voz está en todas partes, pero tenemos que ser pragmáticos acerca de para quién construimos hoy. Eventualmente, entregaremos la infraestructura donde se puede crear y distribuir cualquier voz”.

Al principio, puede parecer que las ofertas corporativas se expanden lentamente, en direcciones como otros idiomas: el sistema de WellSaid no tiene el inglés “integrado” y los datos de capacitación dados en otros idiomas deberían funcionar igualmente bien en ellos. Así que esa es una manera fácil de avanzar. Pero otras industrias también podrían usar la capacidad de voz mejorada: podcasting, juegos, programas de radio, publicidad, gobierno.

Una limitación importante del enfoque de la empresa es que el sistema está destinado a ser operado por una persona y utilizado, esencialmente, para grabar un actor de voz virtual. Esto significa que no es útil para los grupos para quienes es deseable una voz sintética mejorada: muchas personas con discapacidades que afectan su propia voz, personas ciegas que usan interfaces basadas en voz todo el día o incluso personas que viajan a un país extranjero y usan -herramientas de traducción de tiempo.

“Veo a WellSaid dando servicio a ese caso de uso en un futuro cercano”, dijo Ramírez, aunque él y los demás tuvieron cuidado de no hacer ninguna promesa. “Pero hoy, por la forma en que está construido, realmente creemos que un productor humano debería estar interactuando con el motor, para representarlo a un nivel natural de paridad humana. El escenario de renderizado dinámico se acerca bastante rápido y queremos estar preparados para ello, pero no estamos listos para hacerlo hoy”.

La compañía tiene “mucha pista y clientes” y está creciendo rápidamente, por lo que no necesita financiación en este momento, gracias, firmas de capital de riesgo.

Source link