Google acaba de probar que nuestra voz es la mejor interfaz de usuario

Neto

hace 7 años

En un show como Star TrekEs fácil perderse en la tecnología más ambiciosa que ilustra el futuro de la humanidad. Ahí está el replicador, una máquina que hace básicamente lo que quieras. El transportador es otro bueno. La NASA mataría por tener en sus manos un solo disco warp. Pero hay otra pieza de tecnología que se encuentra en segundo plano, y es mucho más importante para nuestras vidas de hoy: la computadora de la nave.

En cada Star Trek La serie, los capitanes y los miembros de la tripulación ladran órdenes a una computadora sin rostro, y esas órdenes se ejecutan con una precisión del 100 por ciento (a excepción de cualquier falla mecánica, es decir). Incluso cuando los Klingon están atacando, la computadora nunca entiende mal los comandos, humanos o de otro tipo.

Si bien las maniobras militares complejas pueden requerir una interfaz gráfica de usuario estándar, Star Trek demuestra que el futuro de la computación personal tiene que ver con la interfaz de usuario de voz (VUI).

Y en su evento anual de software de hoy, Google fue completo Star Trek al revelar algunos nuevos trucos de inteligencia artificial para Android Q, el último software que encontrará en miles de millones de dispositivos. Podría decirse que es la primera vez que realmente vislumbramos la promesa de interfaces activadas por voz en la vida real y lo que podrían significar para el futuro del diseño tecnológico.

Una visión larga en la fabricación

Es una idea aceptada por mucho tiempo que las mejores interfaces de usuario son las que se sienten más naturales. Tal vez nadie lo entendió mejor que Steve Jobs, quien rechazó la idea común del teléfono inteligente en 2007 y, en cambio, se basó en los "estiletes digitales" que la naturaleza nos dio, los 10 de ellos.

Pero esta es solo una instancia en una constante evolución de la tecnología de formación a nuestras inclinaciones humanas naturales. Mientras nuestros dedos navegaban por nuestros teléfonos, los bolígrafos digitales volvían a crear herramientas de dibujo y toma de notas mejoradas, las huellas dactilares se convirtieron en nuestros botones de bloqueo e incluso nuestras expresiones faciales se importaron con Animoji de Apple.

"Los asistentes de voz representan el tercer cambio clave de la interfaz de usuario y la plataforma tecnológica de las últimas tres décadas", dice Harvard Business Review. "Las páginas web nos dieron 'clic' … los teléfonos inteligentes introdujeron 'toque' … estas transiciones requerían que los consumidores aprendieran un nuevo idioma … el cambio a la voz no requiere capacitación".

Son nuestras voces las que realmente cambiarán nuestra forma de pensar acerca de la informática, y es por eso que Amazon tiene al menos 10,000 empleados trabajando en Alexa y Google ha superado a otras compañías en investigación de IA en más de $ 3. mil millones.

Después de todo, el lenguaje complejo es lo que nos separa de todas las demás especies del planeta. Es único para nosotros y es nuestra herramienta natural más poderosa para la comunicación. Por lo tanto, solo tiene sentido que con el tiempo se convierta en el mejor medio para comunicarse con nuestros dispositivos.

Al igual que el capitán Picard que realiza la tarea de la computadora del barco con una serie de acciones complejas casi en tiempo real, todos nosotros podremos hacer lo mismo con nuestros teléfonos y computadoras portátiles utilizando solo nuestras voces.

La realidad de la computación por voz

Hoy, en Google I / O, el jefe de la IA, Scott Huffman, hizo una demostración que podría ser fácilmente Star Trek La tecnología en su infancia.

"¿Qué pasaría si pudiéramos traer la IA que alimenta al Asistente directamente a tu teléfono?" preguntó Huffman. "¿Qué pasaría si el Asistente fuera tan rápido en el procesamiento de su voz, que tocar para operar su teléfono casi parecería lento?"

Esto, por supuesto, aborda una de las muchas limitaciones de VUI en comparación con la interfaz de usuario de gráficos tradicional. Con miles de millones de voces diferentes, profundas sutilezas del lenguaje humano y un retraso de procesamiento adicional para el reconocimiento de voz, VUI se siente beneficioso para consultas únicas de Google, pero casi inutilizable si está intentando realizar un trabajo real.

Y ahí es donde entra el llamado "Asistente de próxima generación" de Google.

"Ejecutando en el dispositivo, [Google Assistant] Puede procesar y comprender solicitudes en tiempo real ", dijo Huffman." Y entregar las respuestas hasta diez veces más rápido ".

Después de declarar esta afirmación audaz, Huffman invitó a un compañero (humano) asistente a repasar los nuevos trucos de Google Assistant. Google AI se abrió paso a través de varias aplicaciones, completando tareas como "abrir mi calendario", "cómo está el clima" y "reservar un Lyft en mi hotel".

Una demostración del "Asistente de próxima generación. "

Google no solo era capaz de responder rápidamente, sino que también podía responder en una serie de comandos, cada uno proporcionando un contexto para el siguiente comando. Esto significa que no tiene que decir "OK Google" un millón de veces y mantiene el contexto de sus preguntas anteriores.

Otras demostraciones demostraron la capacidad del nuevo Asistente para enviar mensajes de texto (sin dedos) y, aún más impresionante, el correo electrónico. El Asistente pudo diferenciar entre acciones como "establecer asunto como" o "enviarlo" y el texto real del correo electrónico en sí mismo, proporcionando una comprensión más profunda de las palabras que el Asistente nunca ha tenido.

El "Asistente de próxima generación " redacta y envía un correo electrónico solo con voz.

La comprensión más profunda del lenguaje y el procesamiento en tiempo real parecen divertidos trucos de salón, pero son habilidades complejas que nuestros impresionantes cerebros humanos a menudo dan por sentado. Estas mejoras ayudan a evolucionar la inteligencia artificial móvil a partir de una forma novedosa de utilizar una Búsqueda de Google en algo más.

Una interfaz de usuario para todos

Uno de los mayores inconvenientes de las últimas tres décadas de las interfaces tecnológicas es que son inherentemente exclusivas.

Entre lo joven y lo viejo, creó una brecha digital entre aquellos que crecieron en un mundo de teléfonos inteligentes y aquellos donde la informática se convirtió en una habilidad aprendida. Y mientras que la mayoría de nosotros puede usar una computadora con un mouse y un teclado, la comunidad discapacitada quedó marginada injustamente.

Pero todos pueden hablar, incluso las personas que, a primera vista, parecen no poder. Google está tratando de hacer que la computación por voz sea lo más accesible posible para cualquier persona con Project Euphoria, una iniciativa para hacer que todas las voces, sin importar qué, sean comprensibles.

Un ejemplo de Proyecto Euphoria en acción.

Y con los esfuerzos para introducir subtítulos en vivo en alguna Parte del contenido de Internet, ese círculo de inclusión se extiende también a la comunidad sorda.

Por supuesto que el sueño de Google sigue siendo solo eso: un sueño. La nueva y mejorada AI de Google se abrirá camino a los dispositivos este otoño, pero eso no significa que inmediatamente se producirá un nuevo mundo de voz.

Los eventos tecnológicos siempre son sospechosamente impecables y el uso en el mundo real a menudo difiere de estas experiencias altamente cuidadas en el escenario. Pero la visión se está enfocando a medida que se crean más y más herramientas que algún día reemplazarán la vieja era de las pantallas y el silencio.

Hace cinco años, hablar con su teléfono parecía anormal, incluso espeluznante. Pero pronto podría ser tan fácil como ordenar a una computadora de la nave que dispare torpedos de fotones.

Source link