Amazon lanza oficialmente su opción 'Modo de conversación' más natural en Echo Show 10

Amazon lanza oficialmente su opción ‘Modo de conversación’ más natural en Echo Show 10

Alexa está aprendiendo a tener conversaciones más naturales. Amazon hoy Anunciado está implementando la nueva función “Modo de conversación” en sus dispositivos Echo Show 10 (3ra generación) que permite que el asistente virtual participe en conversaciones fluidas que no requieren que diga la palabra de activación, “Alexa”. El usuario activa y desactiva este modo a través de comandos de voz, por lo que puede ser algo que solo active según sea necesario.

La compañía presentó Alexa Conversations junto con otros desarrollos de IA en su evento de hardware el año pasado, donde el vicepresidente y científico principal de Amazon, Rohit Prasad, hizo una demostración de las nuevas capacidades de Alexa, como sus respuestas más personalizadas, la capacidad de hacer preguntas aclaratorias y la capacidad de tomar giros naturales en una conversación.

Estos tipos de interacciones son bastante fáciles para los humanos, pero presentan desafíos importantes para una IA.

En su evento, Amazon mostró cómo podría funcionar el modo de conversación cuando dos personas hablaron sobre pedir una pizza.

Después de habilitar la función diciendo: “Alexa, únete a nuestra conversación”, las personas discutieron su pedido de pizza, a veces hablando por el asistente virtual. Cuando Alexa aterrizó en la pizza que le gustaba, una persona dijo “¡ese!” y Alexa ajustó el orden. Alexa también apareció para entender qué preguntas estaban destinadas a él frente a las que formaban parte de la conversación entre las dos personas, como “¿crees que un medio va a ser suficiente?”, por ejemplo. Luego, cuando una persona dijo que no tenía tanta hambre y quería una pizza más pequeña, Alexa cambió automáticamente el pedido.

La compañía explica que Amazon usa una combinación de señales visuales y acústicas para reconocer cuándo el discurso del cliente se dirige al dispositivo y si se espera una respuesta. Este puede ser un problema muy difícil para una IA, ya que muchas preguntas podrían estar dirigidas a un dispositivo o a una persona, explica Amazon hoy, como “¿Qué tal una comedia?” en una conversación sobre la selección de películas.

Además, una función de modo conversacional necesitaría tener una latencia baja para detectar con mayor precisión el comienzo de un enunciado destinado a Alexa. (Normalmente, una palabra de activación hace que Alexa escuche).

Créditos de imagen: Amazonas

Amazon dice que desarrolló un método para la direccionalidad del dispositivo visual al estimar la orientación de la cabeza de cada persona en el campo de visión del dispositivo.

“Entrenamos un modelo de red neuronal profunda para inferir los coeficientes de las plantillas para una imagen de entrada dada y para determinar la orientación de la cabeza en la imagen”, comparte la compañía en una publicación de blog de Amazon Science, que ofrece una vista de alto nivel de la tecnología de IA. “Luego cuantificamos los pesos del modelo, para reducir su tamaño y tiempo de ejecución. En nuestros experimentos, este enfoque redujo la tasa de rechazo falso (FRR) para la detección de direccionamiento de dispositivos visuales en casi un 80% en relación con el [standard perspective-n-point] Acercarse.”

Amazon también utiliza un modelo de detección de actividad de voz del dispositivo basado en audio (DVAD) para procesar las señales de audio que indican si Alexa debe responder o no al habla que está escuchando. Al agregar esto al modo solo visual, Amazon pudo reducir las estelas falsas debido al ruido ambiental en un 80 % y redujo las estelas falsas provocadas por las propias respuestas de Alexa en un 42 %, sin aumentar la latencia, dice.

Para usar el modo de conversación, los usuarios pueden decir: “Alexa, únete a la conversación”. Cuando está habilitado, hay un borde azul sólido alrededor de la pantalla de Echo Show 10 y una barra azul claro en la parte inferior de la pantalla, que le permite saber cuándo se envían sus solicitudes a la nube. Cuando haya terminado, puede salir diciendo: “Abandone la conversación”.

Alexa también saldrá automáticamente del modo si no hay más interacción durante un corto período de tiempo.

La compañía ha estado trabajando en este desarrollo conversacional durante algún tiempo.

En julio de 2020 presentó una versión beta de una función de conversaciones de Alexa a los desarrolladores de Alexa Skills, para ayudarlos a crear aplicaciones de voz que permitan conversaciones más naturales en las que las personas puedan hablar con Alexa de una “manera menos limitada”, usando las frases que prefieran. Antes de esto, Amazon tenía desarrolló una función llamado Modo de seguimiento, que permitió a las personas dar a su dispositivo inteligente Alexa múltiples comandos al mismo tiempo, sin tener que decir “Alexa” cada vez.

Si bien la nueva tecnología de modo de conversación se anunció el año pasado, Amazon le dice a TechCrunch que se lanzará oficialmente hoy y que Echo Show 10 es el primer dispositivo en recibirla.


Source link