Di 'Aloha': una mirada más cercana a las ambiciones de voz de Facebook

Di ‘Aloha’: una mirada más cercana a las ambiciones de voz de Facebook

by

in

Facebook ha tardado un poco en adoptar la revolución de la informática de voz. No tiene asistente de voz, su altavoz inteligente aún está en desarrollo y algunas aplicaciones como Instagram no están completamente equipadas para la comunicación por audio. Pero mucho de eso cambiará a juzgar por los experimentos descubiertos en el código de Facebook, además de las nuevas solicitudes de patente.

El desarrollo de la funcionalidad de voz podría brindar a las personas más formas de usar Facebook en su hogar o mientras viajan. Según los informes, su próximo altavoz inteligente Portal está diseñado para chatear por video fácilmente con familiares lejanos, incluidas personas mayores y niños que podrían tener problemas con los teléfonos. Las funciones mejoradas de transcripción y conversión de voz a texto a voz podrían conectar a los usuarios de Messenger a través de los medios de entrada y mantenerlos en la aplicación de chat en lugar de volver a los SMS.

Pero la voz de Facebook podría quedar ahogada por el estruendo de la multitud si no se mueve pronto. Todos los principales fabricantes de hardware y sistemas operativos móviles ahora tienen sus propios asistentes de voz como Siri, Alexa, Google Assistant y Samsung Bixby, así como sus propios altavoces inteligentes. En el segundo trimestre de 2018, Estimaciones de Canalys que Google envió 5.4 millones de hogares y Amazon envió 4.1 millones de Echoes. El HomePod de Apple ha tenido un comienzo lento con menos del 6 por ciento del mercado, detrás del altavoz inteligente de Alibaba, según Análisis de estrategia. El irregular historial de Facebook en torno a la privacidad podría desviar a los clientes potenciales hacia sus competidores.

Dado que Facebook llega tarde al juego, tendrá que llegar con una poderosa utilidad que resuelva problemas reales. Aquí hay un vistazo a los desarrollos más recientes de Facebook en el espacio de la voz y cómo sus experimentos pasados ​​sientan las bases para su próximo gran impulso.

Aloha voz

Facebook está desarrollando su propia función de reconocimiento de voz con el nombre de Aloha para las aplicaciones de Facebook y Messenger, así como para el hardware externo, probablemente el altavoz inteligente de video chat que está desarrollando. Código dentro de las aplicaciones de Facebook y Messenger para Android desenterrado por frecuentes informadores de TechCrunch e investigadores móviles Jane Manchun Wong da el primer vistazo a un prototipo de la interfaz de usuario de Aloha.

Con la etiqueta “Aloha Voice Testing”, cuando un usuario habla mientras está en un hilo de mensajes, una barra azul horizontal se expande y contrae para visualizar el volumen del habla mientras reconoce y transcribe en texto. El código describe que la función tiene conexiones con dispositivos Wi-Fi o Bluetooth externos. Es posible que el software se ejecute tanto en el hardware como en el software de Facebook, similar al Asistente de Google que se ejecuta tanto en teléfonos como en los altavoces de Google Home. [Update: As seen below, the Aloha feature contains a “Your mobile device is now connected Portal” screen, confirming that name for the Facebook video chat smart speaker device.]

Facebook se negó a comentar sobre el video, y su portavoz Ha Thai me dijo: “Probamos cosas todo el tiempo, no hay nada que compartir hoy, pero mi equipo se pondrá en contacto en unas semanas sobre las noticias de hardware provenientes de la organización de AR / VR. ” No está claro si esas noticias de hardware se centrarán en la voz y Aloha o Portal, o si simplemente están relacionadas con la conferencia Oculus Connect 5 de Facebook el 25 de septiembre.

Una fuente me dijo anteriormente que hace años, Facebook estaba interesado en desarrollar su propio software de reconocimiento de voz diseñado específicamente para transcribir con precisión cómo se hablan los amigos. Estos patrones de habla suelen ser más casuales, coloquiales, rápidos y llenos de jerga que la forma en que nos dirigimos formalmente a los asistentes computarizados como Amazon Alexa o Google Home.

Wong también encontró el logotipo de Aloha enterrado en el código de Facebook, que presenta imágenes de volcán. Puedo confirmar que he visto un chatbot Aloha Setup de Facebook con un logotipo similar en los teléfonos de los empleados de Facebook.

Si Facebook puede resolver esto, podría ofrecer sus propias funciones de transcripción en Messenger y en otras partes del sitio para que los usuarios puedan comunicarse a través de los medios. Potencialmente, podría permitirle dictar comentarios o mensajes a amigos mientras tiene las manos ocupadas o no puede mirar la pantalla. El destinatario podría leer el texto en lugar de tener que escucharlo como un mensaje de voz. La función también podría usarse para impulsar la navegación por voz de las aplicaciones de Facebook para un mejor uso de manos libres.

Patentes de altavoces y cámaras

Facebook otorgó una patente para orador

Según los informes, el altavoz inteligente de video chat de Facebook fue Aloha con nombre en código originalmente pero después Portal renombrado, Alex Heath de Business Insider y ahora Cheddar informó por primera vez en agosto de 2017. El competidor de 499 dólares del Amazon Echo Show estaba inicialmente programado para lanzarse en el F8 de Facebook en mayo, pero Bloomberg informó que fue rechazado en medio de preocupaciones de que exacerbaría el escándalo de privacidad iniciado por Cambridge Analytica.

Una nueva solicitud de patente revela que Facebook estaba considerando construir un altavoz inteligente el 26 de diciembre de 2016 cuando presentó una patente para un dispositivo en forma de cubo. La patente describe un “diseño ornamental para un dispositivo de altavoz” inventado por Baback Elmieh, Alexandre Jais y John Proksch-Whaley. Facebook había adquirido la startup Nascent Objects de Elmieh en septiembre de ese año y ahora es un líder de proyecto técnico en el secreto laboratorio de hardware Building 8 de Facebook.

La startup había estado construyendo hardware modular y, a principios de este año, estaba galardonado patentes para trabajar en Facebook en varias cámaras modulares. La tecnología de altavoces y cámaras que Facebook ha estado desarrollando podría potencialmente evolucionar hasta convertirse en lo que hay en su altavoz de video chat.

El hecho de que Facebook haya estado explorando la tecnología de los altavoces durante tanto tiempo y que el líder de estas patentes todavía esté ejecutando un proyecto secreto en el Edificio 8 refuerza el caso de que Facebook tiene grandes planes para el espacio de la voz.

Las patentes otorgadas a Facebook muestran diseños para una cámara (izquierda) y una cámara de video (derecha)

Mensajes de voz de Instagram

Y finalmente, Instagram también se está profundizando en el juego de la voz. Una captura de pantalla generada a partir del código de la aplicación de Android de Instagram por Wong revela el desarrollo de una función de mensajería de clips de voz que se dirige a Instagram Direct. Esto le permitiría hablar en Instagram y enviar los clips de audio similares a un walkie-talkie, o la función de mensajería de voz que Facebook Messenger agregó en 2013.

Puede ver el botón de voz en el redactor de mensajes en la parte inferior de la pantalla, y el código lo explica a “Mensaje de voz, mantenga presionado para grabar”. El prototipo sigue al reciente lanzamiento del video chat en Instagram Direct, otra característica en la que TechCrunch dio la noticia gracias a la investigación de Wong. Un portavoz de Instagram se negó a comentar, como es típico cuando se detectan características en su código pero aún no se están probando públicamente, diciendo: “Desafortunadamente, no hay nada más que compartir sobre esto en este momento”.

El largo camino hacia Voicebook

Facebook ha estado manipulando durante mucho tiempo el espacio de la voz. En 2015, adquirió la startup de procesamiento de lenguaje natural Wit.ai que ejecutaba una plataforma de desarrollo para crear interfaces de voz, aunque más tarde incorporó Wit.ai al equipo de la plataforma de Messenger para centrarse en los chatbots. Facebook también comenzó a probar automáticamente transcripción de clips de voz de Messenger en texto en 2015 en lo que probablemente fue la base para la función Aloha que se ve arriba. La compañía también reveló su asistente personal M que podría realizar tareas para los usuarios, pero solo se implementó para una base de usuarios muy limitada y luego se desactivó.

Al año siguiente, el jefe de Messenger de Facebook, David Marcus, afirmó en TechCrunch Disrupt que la voz “no es algo en lo que estemos trabajando activamente en este momento”, pero agregó que “en algún momento es bastante obvio que a medida que desarrollamos más y más capacidades e interacciones dentro de Messenger, comenzaremos a trabajar en intercambios e interfaces de voz “. Sin embargo, una fuente me había dicho que el secreto Grupo de Tecnología del Lenguaje de Facebook ya estaba explorando oportunidades de voz. Facebook también comenzó a probar su función de audio en vivo para usuarios que solo desean transmitir sonido y no video.

En 2017, Facebook ofrecía subtítulos automáticos para los videos de Pages y estaba desarrollando una función de búsqueda por voz. Y este año, Facebook comenzó a probar clips de voz como actualizaciones de estado e historias para usuarios de todo el mundo que podrían tener problemas para escribir en su lengua materna. Pero los ejecutivos no han hablado mucho sobre las iniciativas de voz.

Los comentarios más detallados provienen del jefe de diseño de Facebook, Luke Woods, en TechCrunch Disrupt 2017, donde describió la búsqueda por voz diciendo que era “muy prometedora. Están sucediendo muchas cosas emocionantes…. Me encanta poder hablar con el coche para desplazarme a un lugar en particular. Ese es uno de los muchos casos de uso potenciales “. También es uno que la transcripción de voz podría ayudar.

Todavía no está claro exactamente en qué se convertirá Aloha de Facebook. Podría ser un sistema operativo de facto o una interfaz de voz y una función de transcripción para el altavoz inteligente y las aplicaciones de Facebook. Podría convertirse en un asistente de voz más completo como M, pero con audio. O tal vez podría convertirse en el puente de Facebook a otros ecosistemas de voz, sirviendo como Alexa Skill o Google Assistant Action de Facebook.

Cuando le pregunté a Woods “¿Cómo funcionaría Facebook en Alexa?”, Dijo con una sonrisa “¡Esa es una pregunta muy interesante! Sin comentarios.”




Source link