Además de obtener una actualización generativa impulsada por IA y la capacidad de continuar conversaciones sin volver a usar la palabra de activación “Alexa”, el asistente de voz de Amazon obtendrá una voz con un sonido más natural. La compañía presentó hoy un motor actualizado de “voz a voz” que ahora es más consciente del contexto de las emociones del usuario y el tono de su voz, lo que luego permite a Alexa responder con una variación emocional similar en su salida.
La compañía hizo una demostración de la nueva voz que ofrecía una Alexa con un sonido menos robótico, que incluía más expresividad, algo que la compañía notó que estaba impulsado por grandes transformadores que fueron entrenados en diferentes idiomas y acentos.
Por ejemplo, si un cliente solicita una actualización sobre su equipo deportivo favorito y ganó el último juego, Alexa podría responder con una voz alegre. Sin embargo, si hubieran perdido, Alexa sonaría más empática.
“Y estamos trabajando en un nuevo modelo, al que nos referimos como voz a voz, nuevamente impulsado por transformadores masivos. En lugar de convertir primero la solicitud de audio de un cliente en texto mediante reconocimiento de voz, y luego usar un LLM para generar una respuesta de texto o una acción, y luego texto a voz para producir audio, este nuevo modelo unificará estas tareas, creando una experiencia conversacional mucho más rica”, dijo el vicepresidente senior de Alexa Rohit Prasad.
Amazon dijo que Alexa podrá exhibir atributos como risa, sorpresa e incluso ajá que animen a los usuarios a continuar la conversación.
Todo esto está impulsado por las tecnologías Large Text-to-Speech (LTTS) y Speech-to-Speech (S2S) de Amazon. El primero permite a Alexa adaptar su respuesta utilizando entradas de texto, como la solicitud de un usuario o el tema que se está discutiendo, mientras que el segundo incluye capas de entradas de audio además del texto para permitir que Alexa adapte su respuesta con mayor riqueza conversacional, dice Amazon.
Corrección, 20/09/23 12:28 pm et: el nuevo motor se denomina ‘voz a voz’, no ‘texto a voz’. El artículo se actualizó para reflejar esto.
Source link