Whisper de código abierto OpenAI, un sistema de reconocimiento de voz multilingüe

Sep 21, 2022

—

por

El reconocimiento de voz sigue siendo un problema desafiante en la IA y el aprendizaje automático. En un paso hacia la solución, OpenAI Este Dia Whisper de código abierto, un sistema automático de reconocimiento de voz que, según la compañía, permite una transcripción “robusta” en varios idiomas, así como la traducción de esos idiomas al inglés.

Innumerables organizaciones han desarrollado sistemas de reconocimiento de voz altamente capaces, que se encuentran en el núcleo del software y los servicios de gigantes tecnológicos como Google, Amazon y Meta. Pero lo que hace que Whisper sea diferente, según OpenAI, es que se entrenó con 680 000 horas de datos multilingües y “multitarea” recopilados de la web, lo que lleva a un mejor reconocimiento de acentos únicos, ruido de fondo y jerga técnica.

“Los principales usuarios previstos de [the Whisper] Los modelos son investigadores de IA que estudian la solidez, la generalización, las capacidades, los sesgos y las limitaciones del modelo actual. Sin embargo, Whisper también es potencialmente bastante útil como una solución de reconocimiento automático de voz para desarrolladores, especialmente para el reconocimiento de voz en inglés”, escribió OpenAI en GitHub. repositorio para Whisper, desde donde se pueden descargar varias versiones del sistema. “[The models] mostrar buenos resultados de ASR en ~10 idiomas. Pueden exhibir capacidades adicionales… si se ajustan en ciertas tareas como detección de actividad de voz, clasificación de locutores o diarización de locutores, pero no han sido evaluados de manera sólida en estas áreas”.

Whisper tiene sus limitaciones, particularmente en el área de predicción de texto. Debido a que el sistema se entrenó con una gran cantidad de datos “ruidosos”, OpenAI advierte que Whisper podría incluir palabras en sus transcripciones que en realidad no se pronunciaron, posiblemente porque está tratando de predecir la siguiente palabra en el audio y tratando de transcribir el audio en sí. . Además, Whisper no funciona igual de bien en todos los idiomas, ya que sufre una mayor tasa de error cuando se trata de hablantes de idiomas que no están bien representados en los datos de entrenamiento.

Desafortunadamente, eso último no es nada nuevo en el mundo del reconocimiento de voz. Los sesgos han plagado durante mucho tiempo incluso a los mejores sistemas, con un estudio de Stanford de 2020 que encontró que los sistemas de Amazon, Apple, Google, IBM y Microsoft cometieron muchos menos errores (alrededor del 35 %) con usuarios blancos que con usuarios negros.

A pesar de esto, OpenAI considera que las capacidades de transcripción de Whisper se utilizan para mejorar las herramientas de accesibilidad existentes.

“Si bien los modelos Whisper no se pueden usar para la transcripción en tiempo real de manera inmediata, su velocidad y tamaño sugieren que otros pueden crear aplicaciones sobre ellos que permitan el reconocimiento y la traducción del habla casi en tiempo real”, dijo la compañía. continúa en GitHub. “El valor real de las aplicaciones beneficiosas construidas sobre los modelos Whisper sugiere que el desempeño dispar de estos modelos puede tener implicaciones económicas reales… [W]Esperamos que la tecnología se utilice principalmente con fines beneficiosos, hacer que la tecnología de reconocimiento automático de voz sea más accesible podría permitir que más actores construyan tecnologías de vigilancia capaces o amplíen los esfuerzos de vigilancia existentes, ya que la velocidad y la precisión permiten la transcripción y traducción automática asequible de grandes volúmenes. de la comunicación por audio”.

El lanzamiento de Whisper no es necesariamente indicativo de los planes futuros de OpenAI. Si bien se enfoca cada vez más en esfuerzos comerciales como DALL-E 2 y GPT-3, la compañía está siguiendo varios hilos de investigación puramente teóricos, incluidos los sistemas de IA que aprende observando videos.

Source link