OpenAI presenta Whisper API para la transcripción y traducción de voz a texto

Mar 1, 2023

—

por

Para coincidir con el lanzamiento de la API ChatGPT, OpenAI lanzó hoy la API Whisper, una versión alojada del modelo de voz a texto Whisper de código abierto que la compañía lanzó en septiembre.

Con un precio de $ 0.006 por minuto, Whisper es un sistema de reconocimiento de voz automático que, según OpenAI, permite una transcripción “robusta” en varios idiomas, así como la traducción de esos idiomas al inglés. Toma archivos en una variedad de formatos, incluidos M4A, MP3, MP4, MPEG, MPGA, WAV y WEBM.

Innumerables organizaciones han desarrollado sistemas de reconocimiento de voz altamente capaces, que se encuentran en el núcleo del software y los servicios de gigantes tecnológicos como Google, Amazon y Meta. Pero lo que hace que Whisper sea diferente es que se entrenó con 680 000 horas de datos multilingües y “multitarea” recopilados de la web, según el presidente y presidente de OpenAI, Greg Brockman, lo que condujo a un mejor reconocimiento de acentos únicos, ruido de fondo y jerga técnica.

“Lanzamos un modelo, pero eso en realidad no fue suficiente para que todo el ecosistema de desarrolladores se construyera a su alrededor”, dijo Brockman en una videollamada con TechCrunch ayer por la tarde. “La API de Whisper es el mismo modelo grande que puede obtener de código abierto, pero lo hemos optimizado al extremo. Es mucho, mucho más rápido y extremadamente conveniente”.

Para el punto de Brockman, hay muchas barreras cuando se trata de que las empresas adopten tecnología de transcripción de voz. Según un Statista de 2020 encuestalas empresas citan la precisión, los problemas de reconocimiento relacionados con el acento o el dialecto y el costo como las principales razones por las que no han adoptado tecnología como la tecnología de voz.

Sin embargo, Whisper tiene sus limitaciones, particularmente en el área de la predicción de la “siguiente palabra”. Debido a que el sistema se entrenó con una gran cantidad de datos ruidosos, OpenAI advierte que Whisper podría incluir palabras en sus transcripciones que en realidad no se pronunciaron, posiblemente porque está tratando de predecir la siguiente palabra en audio y transcribir la grabación de audio. Además, Whisper no funciona igual de bien en todos los idiomas, ya que sufre una mayor tasa de error cuando se trata de hablantes de idiomas que no están bien representados en los datos de entrenamiento.

Desafortunadamente, eso último no es nada nuevo en el mundo del reconocimiento de voz. Los sesgos han plagado durante mucho tiempo incluso los mejores sistemas, con un Stanford 2020 estudiar encontrar sistemas de Amazon, Apple, Google, IBM y Microsoft cometió muchos menos errores (alrededor del 19 %) con usuarios blancos que con usuarios negros.

A pesar de esto, OpenAI considera que las capacidades de transcripción de Whisper se utilizan para mejorar las aplicaciones, los servicios, los productos y las herramientas existentes. Speak, la aplicación de aprendizaje de idiomas impulsada por IA, ya está utilizando la API Whisper para potenciar un nuevo compañero de habla virtual en la aplicación.

Si OpenAI puede ingresar al mercado de voz a texto de manera importante, podría ser bastante rentable para la empresa respaldada por Microsoft. De acuerdo a según un informe, el segmento podría tener un valor de $ 5,4 mil millones para 2026, frente a $ 2,2 mil millones en 2021.

“Nuestra imagen es que realmente queremos ser esta inteligencia universal”, dijo Brockman. “Realmente queremos, de manera muy flexible, poder tomar cualquier tipo de datos que tenga, cualquier tipo de tarea que desee realizar, y ser un multiplicador de fuerza en esa atención”.

Source link