El nuevo sistema de reconocimiento de voz de Google funciona instantáneamente y sin conexión (si tiene un píxel)

El nuevo sistema de reconocimiento de voz de Google funciona instantáneamente y sin conexión (si tiene un píxel)

El reconocimiento de voz es una parte estándar del paquete de teléfonos inteligentes en estos días, y una parte correspondiente es la demora mientras espera a Siri, Alexa o Google para devolver su consulta, ya sea correctamente interpretada o horriblemente mutilada. El último reconocimiento de voz de Google funciona completamente fuera de línea, eliminando ese retraso por completo, aunque, por supuesto, la mutilación sigue siendo una opción.

La demora se produce porque su voz, o algunos datos derivados de ella de todos modos, tienen que viajar desde su teléfono a los servidores de quien opera el servicio, donde se analiza y se envía de vuelta poco después. Esto puede tomar desde unos pocos milisegundos hasta varios segundos completos (¡qué pesadilla!), O más si tus paquetes se pierden en el éter.

¿Por qué no hacer el reconocimiento de voz en el dispositivo? No hay nada que estas compañías quieran más, pero convertir la voz en texto en el orden de milisegundos requiere bastante poder informático. No se trata solo de escuchar un sonido y escribir una palabra: entender lo que alguien dice palabra por palabra implica mucho contexto sobre el lenguaje y la intención.

Tu teléfono podría hacerlo, sin duda, pero no sería mucho más rápido que enviarlo a la nube y consumiría tu batería. Pero los avances constantes en el campo lo han hecho posible, y el último producto de Google lo pone a disposición de cualquier persona con un píxel.

El trabajo de Google sobre el tema, documentado en un documento aquí, se basa en los avances previos para crear un modelo lo suficientemente pequeño y eficiente como para caber en un teléfono (son 80 megabytes, si tiene curiosidad), pero es capaz de escuchar y transcribir el habla mientras lo hace. dilo. No es necesario que esperes hasta que hayas terminado una oración para pensar si te referías a “ellos” o “allí”, ya que lo calcula sobre la marcha.

Entonces, ¿cuál es la trampa? Bueno, solo funciona en Gboard, la aplicación de teclado de Google, y solo funciona en píxeles, y solo en inglés americano. Así que de alguna manera esto es solo una prueba de estrés para la cosa real.

“Dadas las tendencias en la industria, con la convergencia de hardware especializado y mejoras algorítmicas, esperamos que las técnicas presentadas aquí se puedan adoptar pronto en más idiomas y en dominios de aplicación más amplios”, escribe Google, como si fueran las tendencias. Que hay que hacer el trabajo duro de localización.

Hacer que el reconocimiento de voz sea más receptivo y que funcione sin conexión es un buen desarrollo. Pero es algo gracioso, considerando que casi ninguno de los otros productos de Google funciona sin conexión. ¿Vas a dictar en un documento compartido mientras estás desconectado? ¿Escribe un email? ¿Pide una conversión entre litros y tazas? ¡Vas a necesitar una conexión para eso! Por supuesto, esto también será mejor en conexiones lentas e irregulares, pero hay que admitir que es un poco irónico.


Source link