a16z apuesta millones en Maven, una plataforma para cursos basados ​​en cohortes

Google detalla el trabajo de IA detrás del reconocimiento de voz más inclusivo de Project Euphonia

Como parte de los nuevos esfuerzos hacia la accesibilidad, Google anunció Project Euphonia en I/O en mayo: un intento de hacer que el reconocimiento de voz sea capaz de comprender a las personas con impedimentos o voces no estándar. La empresa acaba de publicó una publicación y su documento que explica parte del trabajo de IA que permite la nueva capacidad.

El problema es simple de observar: las voces habladas de las personas con deficiencias motoras, como las producidas por enfermedades degenerativas como la esclerosis lateral amiotrófica (ELA), simplemente no son comprendidas por los sistemas de procesamiento del lenguaje natural existentes.

Puede verlo en acción en el siguiente video del científico de investigación de Google Dimitri Kanevsky, quien también tiene problemas del habla, intentando interactuar con uno de los productos de la compañía (y eventualmente lo hace con la ayuda de trabajo relacionado Parrotron):

El equipo de investigación lo describe de la siguiente manera:

ASR [automatic speech recognition] los sistemas se entrenan con mayor frecuencia a partir del habla “típica”, lo que significa que los grupos subrepresentados, como aquellos con problemas de habla o acentos fuertes, no experimentan el mismo grado de utilidad.

…Los modelos ASR de última generación actuales pueden generar tasas de error de palabra (WER) altas para los hablantes con solo una discapacidad moderada del habla debido a ALS, lo que impide efectivamente el acceso a las tecnologías que dependen de ASR.

Es notable que, al menos en parte, culpen al conjunto de entrenamiento. Ese es uno de esos sesgos implícitos que encontramos en los modelos de IA que pueden conducir a altas tasas de error en otros lugares, como el reconocimiento facial o incluso darse cuenta de que una persona está presente. Si bien no incluir a los grupos principales, como las personas con piel oscura, no es un error comparable en escala a la construcción de un sistema que no incluya a las personas con habla afectada, ambos pueden abordarse con datos de origen más inclusivos.

Para los investigadores de Google, eso significó recolectar docenas de horas de audio hablado de personas con ELA. Como era de esperar, cada persona se ve afectada de manera diferente por su condición, por lo que acomodar los efectos de la enfermedad no es el mismo proceso que acomodar, digamos, un acento meramente poco común.

Se usó un modelo estándar de reconocimiento de voz como base, luego se modificó de algunas maneras experimentales, entrenándolo en el nuevo audio. Esto por sí solo redujo drásticamente las tasas de error de palabras, y lo hizo con relativamente pocos cambios en el modelo original, lo que significa que hay menos necesidad de cálculos pesados ​​al adaptarse a una nueva voz.

Los investigadores encontraron que el modelo, cuando todavía está confundido por un fonema determinado (es decir, un sonido de habla individual como una “e” o “f”), tiene dos tipos de errores. Primero, está el hecho de que no reconoce el fonema para lo que se pretendía y, por lo tanto, no reconoce la palabra. Y en segundo lugar, el modelo tiene que adivinar qué fonema pretendía el hablante y podría elegir el fonema equivocado en los casos en que dos o más palabras suenan más o menos similares.

El segundo error en particular es uno que puede manejarse inteligentemente. Tal vez dices, “Voy a volver a entrar a la casa”, y el sistema no reconoce la “b” en atrás y la “h” en casa; no es igualmente probable que tuviera la intención de decir “Voy a virar dentro del mouse”. El sistema de inteligencia artificial puede usar lo que sabe del lenguaje humano, y de su propia voz o el contexto en el que está hablando, para llenar los vacíos de manera inteligente.

Pero eso queda para futuras investigaciones. Por ahora puedes leer el trabajo del equipo hasta el momento en el documento “Personalización de ASR para disartria y habla acentuada con datos limitados”, prevista para ser presentada en el interdiscurso conferencia en Austria el próximo mes.


Source link