Gracias a las modernas técnicas de aprendizaje automático, los motores de conversión de texto a voz han logrado grandes avances en los últimos años. Solía ser increíblemente fácil saber que era una computadora la que estaba leyendo un texto y no un ser humano. Pero eso está cambiando rápidamente. El brazo de computación en la nube AWS de Amazon hoy lanzado una serie de nuevos modelos neuronales de texto a voz, así como un nuevo estilo de presentador de noticias que pretende imitar la forma en que… lo adivinaste… suenan los presentadores de noticias.
“La calidad del habla es ciertamente importante, pero se puede hacer más para que una voz sintética suene aún más realista y atractiva”, señala la compañía en el anuncio de hoy. “¿Qué pasa con el estilo? Sin duda, los oídos humanos pueden notar la diferencia entre un noticiero, un programa deportivo, una clase universitaria, etc.; de hecho, la mayoría de los humanos adoptan el estilo correcto de expresión para el contexto correcto, y esto ciertamente ayuda a transmitir su mensaje”.
El nuevo estilo de presentador de noticias ahora está disponible en dos voces de EE. UU. (Joanna y Matthew) y Amazon ya está trabajando con USA Today y Canada’s El globo y el correoentre otras empresas, para ayudarles a expresar sus textos.
Tener un escucha para ti:
Amazon Polly Newscaster, como se llama oficialmente el nuevo servicio, es el resultado de años de investigación sobre la conversión de texto a voz, que AWS ahora también pone a disposición a través de su motor Neural Text-to-Speech. Este nuevo motor, que no se diferencia de motores neuronales similares como WaveNet de Google y otros, actualmente cuenta con 11 voces, tres para inglés británico y ocho para inglés estadounidense.
Puedes escuchar algunas más de estas voces. aquí.
En esta era de noticias falsas, tener voces de robot realistas que suenen como presentadores de noticias reales parece un poco problemático al principio. Sin embargo, en su mayor parte, si un robot o un humano lee el texto no hace mucha diferencia. Hay muchos buenos casos de uso para las voces y, dados los ejemplos proporcionados por AWS, podrá escuchar estas voces durante mucho más tiempo que las antiguas antes de querer cortarse las orejas.