Speechmatics impulsa el reconocimiento del inglés acentuado

El reconocimiento de voz ha pasado de ser conveniente a crucial en los últimos años a medida que los altavoces inteligentes y los modos de asistencia a la conducción han despegado, pero no la voz de todos se reconoce igualmente bien. Speechmatics afirma tener el modelo más inclusivo y preciso que existe, superando a Amazon, Google y otros cuando se trata de hablar fuera de los acentos estadounidenses más comunes.

La empresa explicó que fue guiada hacia la cuestión de la precisión por un Estudio de Stanford de 2019 titulado “Disparidades raciales en el reconocimiento de voz”, que encontró exactamente eso. Los motores de voz de Amazon, Apple, Google, IBM y Microsoft “exhibieron disparidades raciales sustanciales, con una tasa de error de palabra promedio (WER) de 0,35 para los hablantes negros en comparación con 0,19 para los altavoces blancos”. ¡No es bueno!

La fuente de esta disparidad puede atribuirse en parte a la falta de diversidad en los conjuntos de datos utilizados para entrenar estos sistemas. Después de todo, si hay pocos hablantes negros en los datos, el modelo tampoco aprenderá esos patrones de habla. Lo mismo puede decirse de los hablantes con otros acentos, dialectos, etc. Estados Unidos (y mucho menos el Reino Unido) está lleno de acentos y cualquier empresa que pretenda ofrecer servicios para “todos” debe ser consciente de ello.

En cualquier caso, Speechmatics, con sede en el Reino Unido, hizo de la precisión en la transcripción del inglés con acento una prioridad para su último modelo, y afirma haber sacado a los demás del agua. Según los mismos conjuntos de datos utilizados en el estudio de Stanford (pero utilizando las últimas versiones del software de voz), “Speechmatics registró una precisión general del 82,8% para las voces afroamericanas en comparación con Google (68,7%) y Amazon (68,6%), ” la empresa escribió en su comunicado de prensa.

La compañía atribuye este éxito a un enfoque relativamente nuevo para crear un modelo de reconocimiento de voz. Tradicionalmente, el sistema de aprendizaje automático se proporciona con datos etiquetados: piense en un archivo de audio de voz con un archivo de texto o metadatos adjuntos que tenga lo que se dice, generalmente transcrito y verificado por humanos. Para un algoritmo de detección de gatos, tendría imágenes y datos que indiquen cuáles contienen gatos, dónde está el gato en cada imagen, etc. Este es el aprendizaje supervisado, donde un modelo aprende las correlaciones entre dos formas de datos preparados.

Speechmatics utilizó el aprendizaje auto-supervisado, un método que ha ganado fuerza en los últimos años a medida que los conjuntos de datos, la eficiencia del aprendizaje y el poder computacional han crecido. Además de los datos etiquetados, utiliza datos en bruto, sin etiquetar y mucho más, construyendo su propia “comprensión” del habla con mucha menos orientación.

En este caso, el modelo se basó en aproximadamente 30.000 horas de datos etiquetados para obtener una especie de nivel básico de comprensión, luego se alimentó con 1,1 millones de horas de audio disponible públicamente procedente de YouTube, podcasts y otro contenido. Este tipo de recopilación es un área un poco gris, ya que nadie consintió explícitamente que su podcast se usara para entrenar el motor comercial de reconocimiento de voz de alguien. Pero muchos lo usan de esa manera, al igual que se usó “todo Internet” para entrenar el GPT-3 de OpenAI, probablemente incluyendo miles de mis propios artículos. (Aunque todavía tiene que dominar mi voz única).

Además de mejorar la precisión para los hablantes afroamericanos, el modelo Speechmatics afirma una mejor transcripción para los niños (aproximadamente un 92% de precisión frente a aproximadamente un 83% en Google y Deepgram) y mejoras pequeñas pero significativas en inglés con acentos de todo el mundo: indio, filipino, Sudáfrica y muchos otros, incluso escoceses.

Admiten docenas de otros idiomas y también son competitivos en muchos de ellos; este no es solo un modelo de reconocimiento del inglés, sino que dado el uso del idioma como lingua franca (un modismo hilarantemente inepto hoy en día), los acentos son especialmente importantes para él.

La Speechmatics puede estar por delante en las métricas que cita, pero el mundo de la IA se mueve a un ritmo increíblemente rápido y no me sorprendería ver más saltos durante el próximo año. Google, por ejemplo, está trabajando arduamente para asegurarse de que sus motores funcionen para las personas con problemas de habla. La inclusión es una parte importante de todo el trabajo de la IA en estos días y es bueno ver que las empresas intentan superarse entre sí.

Source link