Papercup, la startup del Reino Unido que utiliza inteligencia artificial para una traducción de voz con un sonido realista, recauda fondos de £ 8 millones

Papercup, la startup del Reino Unido que utiliza inteligencia artificial para una traducción de voz con un sonido realista, recauda fondos de £ 8 millones

Vaso de papel, la startup de inteligencia artificial con sede en el Reino Unido que ha desarrollado tecnología de voz que traduce las voces de las personas a otros idiomas y que ya se utiliza en la industria del vídeo y la televisión, ha recaudado 8 millones de libras esterlinas en financiación.

La ronda fue liderada por LocalGlobe y Sands Capital Ventures, junto con Sky, GMG Ventures, Entrepreneur First (EF) y BDMI. Papercup dice que el nuevo capital se utilizará para invertir más en la investigación del aprendizaje automático y ampliar su funcionalidad de control de calidad “humana en el ciclo”, que se utiliza para mejorar y personalizar la calidad de sus videos traducidos por IA.

Mientras tanto, los inversores ángeles existentes de Papercup incluyen a William Tunstall-Pedoe, el fundador de Evi Technologies, la compañía adquirida por Amazon para crear Alexa, y Zoubin Ghahramani, ex científico jefe y vicepresidente de inteligencia artificial en Uber y ahora parte del equipo de liderazgo de Google Brain.

Fundada en 2017 por Jesse Shemen y Jiameng Gao mientras pasaba por el programa de creación de empresas de EF, Papercup está desarrollando un sistema basado en inteligencia artificial y aprendizaje automático que, según dice, es capaz de traducir la voz y la expresividad de una persona a otros idiomas. A diferencia de una gran cantidad de texto a voz, la startup afirma que la traducción de voz resultante es “indistinguible” del habla humana y, quizás de manera única, intenta retener las características de la voz del hablante original.

Inicialmente, la tecnología está dirigida a productores de videos, incluso ya la utilizan Sky News, Discovery y las estrellas de YouTube Yoga with Adriene, junto con creadores de contenido de bricolaje. Se presenta como una alternativa mucho más escalable y, por lo tanto, de menor costo que el doblaje humano puro.

“La mayor parte del contenido de video y audio del mundo está encadenado a un solo idioma”, dice el cofundador y director ejecutivo de Papercup, Shemen. “Eso incluye miles de millones de horas de videos en YouTube, millones de episodios de podcasts, decenas de miles de clases en Skillshare y Coursera, y miles de horas de contenido en Netflix. Casi todos los propietarios de contenido se esfuerzan por internacionalizarse, pero todavía no existe una forma sencilla y rentable de traducir contenido más allá de los subtítulos ”.

Para los “estudios con mucho dinero”, por supuesto, existe la opción de emplear doblaje de alta calidad a través de un estudio de doblaje profesional y actores de doblaje, pero esto es demasiado costoso para la mayoría de los propietarios de contenido. E incluso los estudios ricos a menudo se ven limitados en términos de cuántos idiomas pueden acomodar.

“Eso deja a la cola media y larga de propietarios de contenido, literalmente el 99% de todo el contenido, varados e incapaces de llegar a audiencias internacionales más allá de los subtítulos”, dice Shemen, que, por supuesto, es donde entra en juego Papercup. “Nuestro objetivo es generar voces traducidas que suenen lo más cerca posible del hablante original”.

Para hacer eso, dice que Papercup deberá abordar cuatro cosas. Lo primero es crear voces que “suenen naturales”, es decir, qué tan claras y humanas suenan las voces sintéticas. El segundo desafío es retener la emoción y el ritmo para reflejar cómo se expresó el hablante original (piense: feliz, triste, enojado, etc.). En tercer lugar, se captura la singularidad de la voz de alguien (por ejemplo, Morgan Freeman, pero en alemán). Por último, la traducción resultante necesita la alineación correcta del audio con el video en sí.

Explica Shemen: “Comenzamos haciendo que nuestras voces sonaran lo más humanas y naturales posible, donde hemos dado un salto significativo en términos de calidad al perfeccionar nuestra tecnología para la tarea, y hoy tenemos uno de los mejores Sistemas de síntesis de voz en español en producción.

“Ahora nos estamos enfocando en una mejor retención y transferencia de la emoción y expresividad originales en el hablante original a través de los idiomas, y mientras tanto, averiguamos qué es exactamente lo que hace que el doblaje sea de calidad”.

El próximo desafío y posiblemente el hueso más difícil de romper es la “adaptación del altavoz”, que se describe como capturar la singularidad de la voz de alguien. “Esta es la última capa de adaptación”, señala el CEO de Papercup, “pero también fue uno de nuestros primeros avances en nuestra investigación. Si bien tenemos modelos que pueden lograrlo, dedicamos más tiempo a la emoción y la expresividad ”.

Eso no quiere decir que Papercup funcione completamente con una máquina, incluso si podría serlo algún día. La empresa también emplea un proceso “humano en el bucle” para realizar correcciones y ajustes en la pista de audio traducida. Esto incluye corregir cualquier error de reconocimiento de voz o traducción automática que surja, realizar ajustes en los tiempos del audio, así como reforzar las emociones (por ejemplo, feliz, triste) y cambiar la velocidad de la voz generada.

La cantidad de humanos en el bucle que se requiere depende del tipo de contenido y las prioridades de los propietarios del contenido, es decir, qué tan realistas o perfectos necesitan que sea el video resultante. En otras palabras, no es un juego de suma cero, ya que lo suficientemente bueno será más que suficiente para una gran cantidad de propietarios de contenido a escala.

Cuando se le preguntó sobre los inicios de la tecnología, Shemen dice que Papercup comenzó con una investigación realizada por el cofundador y CTO Jiameng Gao “quien es increíblemente inteligente y extrañamente obsesionado con el procesamiento del habla”. Gao completó dos maestrías en la Universidad de Cambridge (en aprendizaje automático y tecnología del habla y lenguaje) y escribió una tesis sobre el procesamiento adaptativo del habla del hablante. Fue en Cambridge donde se dio cuenta de que algo como Papercup era posible.

“Cuando comenzamos a trabajar juntos en Entrepreneur First a fines de 2017, construimos nuestros prototipos de sistemas iniciales que demostraron que esta tecnología era incluso posible a pesar de que no tenía precedentes”, dice Shemen. “Basándonos en las primeras conversaciones, la demanda era claramente abrumadora para lo que estábamos construyendo, era solo una función de construir algo que pudiera usarse en un entorno de producción”.


Source link