Google prueba Project Relate, una aplicación de síntesis y reconocimiento de voz para personas con problemas de habla

Google está buscando ayuda para desarrollar una aplicación para Android destinada a brindar más opciones de comunicación para personas con discapacidades del habla. Project Relate, como se llama ahora el esfuerzo y la aplicación, proporcionará transcripción y síntesis de voz que podría facilitar la comprensión de los usuarios.

El proyecto desciende del Proyecto Euphonia, que cubrimos en 2019 cuando se anunció por primera vez y más tarde cuando la compañía publicó algunas de sus investigaciones. El esfuerzo fue encabezado por el científico investigador de Google Dimitri Kanevsky, quien a su vez ha afectado el habla y aportó conocimientos de primera mano a la solución basada en inteligencia artificial. Ahora, uno de los principales socios del proyecto y usuarios de la aplicación es Aubrie Lee, quien está en el equipo de marketing allí (ella nombró la aplicación) y debido a la distrofia muscular tiene problemas para ser comprendida por otras personas y aplicaciones. (Puedes verla en el video aquí o abajo).

El simple hecho es que los motores de reconocimiento de voz necesitan una gran cantidad de voz grabada para aprender a interpretarla correctamente y que los datos están sesgados a favor de patrones de voz comunes. Las personas con acentos no están tan bien representadas en estos conjuntos de datos, por lo que no se les comprende tan bien, y las personas con impedimentos del habla se incluyen con menos frecuencia, lo que hace prácticamente imposible que utilicen dispositivos de voz comunes.

Las nuevas empresas y las mejoras en la tecnología básica están mejorando la comprensión del lenguaje acentuado, pero se necesita un esfuerzo especial para recopilar y analizar los patrones de habla altamente individualizados de las personas con deficiencias y discapacidades. Cada voz es diferente, pero los patrones poco comunes y únicos, como los que resultan de un derrame cerebral o una lesión, pueden ser difíciles de comprender de manera confiable para un sistema de aprendizaje automático.

Project Relate es, en esencia, una mejor herramienta de transcripción de voz para personas con impedimentos del habla. La función “Escuchar” convierte el discurso del usuario directamente en texto, por lo que puede ser pegado en otro lugar o leído por otros. “Repetir” escucha primero y luego repite lo que han dicho con una voz que se espera que sea más clara. “Asistente” básicamente reenvía su discurso transcrito directamente al Asistente de Google para tareas comunes como reproducir música o preguntar sobre el clima.

Para habilitar estas capacidades, el trabajo de Google ha sido el primero en recopilar la mayor cantidad de datos posible y, con ese fin, los investigadores señalan que han creado una base de datos de más de un millón de muestras de voz de voluntarios. Esto se utilizó para entrenar lo que podría llamarse el nivel básico de inteligencia para la IA de reconocimiento de voz. Pero como cualquier otro sistema de AA, cuantos más datos, y cuanto más específicos sean los datos para el caso de uso individual, mejor.

“Sabemos que la comunidad de personas con impedimentos del habla es increíblemente diversa y la forma en que las personas interactuarán con Project Relate puede ser diferente”, dijo Julie Cattiau, gerente de producto de Google Research en un correo electrónico a TechCrunch. “Queremos evitar asumir lo que nuestro público objetivo necesita y la mejor manera de hacerlo es construir nuestro producto de la mano de las personas que lo usarán. Al participar en las pruebas con un grupo inicial de personas, podemos comprender mejor cómo funcionará nuestra aplicación para las personas en su vida diaria, qué tan precisa será y qué áreas de mejora podría haber, antes de expandirnos a una audiencia más amplia “.

La compañía está reclutando una primera ronda de probadores del mundo real para usar la aplicación con regularidad. El primer paso será grabar un conjunto de frases, que se integrarán con el modelo de habla para adaptarse mejor a sus patrones de habla. Si cree que esto podría ser útil en su vida diaria, no dude en registrarse como voluntario potencial y tal vez ayude a mejorar la aplicación para todos.

Source link