Gladia convierte cualquier audio en texto casi en tiempo real

Encontrarse gladia, una startup francesa de inteligencia artificial que quiere cambiar la forma en que las empresas interactúan con los datos de audio. La compañía desarrolla una interfaz de programación de aplicaciones (API) de transcripción de audio que se puede integrar con otros productos y se supone que funciona mucho mejor que lo que está disponible en el mercado. Y esta base tecnológica desbloquea nuevos casos de uso en torno al audio.

Si está familiarizado con las API de transcripción de audio, sabe que los grandes proveedores de la nube ya tienen sus propias API. Está el de Google API de voz a texto, Transcripción de Amazonasde Microsoft Dictado a textoetc. Funcionan bien, pero son caros, lentos y no tienen muchas funciones.

El cofundador y CEO de Gladia, Jean-Louis Quéguiner, exjefe de IA de OVHcloud y cofundador de la empresa con Jonathan Soto, me habló de algunas de las limitaciones de las API existentes. Según él, hay tres puntos débiles con los productos existentes. Primero, cuando se trata de precios, transcribir una hora de audio generalmente cuesta entre $1.50 y $2 por hora.

En segundo lugar, la salida no siempre es muy confiable ya que algunos idiomas funcionan bien mientras que otros apenas son compatibles. Cuando se trata de funciones avanzadas, si las personas hablan en varios idiomas, es probable que la API simplemente no pueda notar el cambio de idioma y transcribir el audio en más de un idioma.

En tercer lugar, las API de transcripción son lentas. Puede llevar más de 15 minutos transcribir una hora de audio. Eso está bien si no necesita transcripciones de inmediato, pero significa que no podrá usar estas API en algunas industrias.

susurrador de susurros

Gladia se basa en Susurro, el modelo de transcripción de código abierto de OpenAI. “Comenzamos desde Whisper. No hemos reinventado la rueda, pero escuchamos a nuestros clientes y nos dijeron: ‘Lo que quiero es algo que funcione tan bien como Whisper’”, me dijo Jean-Louis Quéguiner.

Pero Whisper no es perfecto. La versión estándar sigue siendo bastante lenta, por lo que Gladia ha dedicado mucho tiempo a convertir Whisper en un modelo de transcripción rápido y receptivo. Ese no es el único problema.

“La mitad de Whisper es GPT-2. Has visto LLM y ChatGPT, tiende a alucinar. También hemos trabajado mucho para evitar problemas de alucinaciones”, dijo Quéguiner.

En particular, me dijo que Whisper ha sido entrenado en subtítulos que puedes encontrar en Internet, como en YouTube. El modelo de OpenAI tiende a escuchar frases comunes que puedes escuchar en videos en línea, como “si disfrutaste este video, dale me gusta y suscríbete”. Hay una sobrerrepresentación matemática de algunas oraciones como esta y Gladia intenta corregir esas deficiencias.

Además de estas modificaciones a Whisper y su implementación, Gladia también cuenta con algunos algoritmos de preprocesamiento y posprocesamiento que mejoran los resultados finales.

Gladia promete que puede transcribir una hora de audio por $0,61. Y el proceso de transcripción dura aproximadamente 60 segundos. Su API puede detectar cuando hay varios hablantes, agregar marcas de tiempo, detectar idiomas y cambiar de un idioma a otro si es necesario. Gladia también agrega automáticamente signos de puntuación y mayúsculas y minúsculas.

Como la mayoría de las API, el resultado final está en formato JSON. Pero Gladia también admite archivos SRT y VTT para empresas que desean generar subtítulos.

Creé una cuenta y subí una grabación de audio de una entrevista para ver cómo funciona Gladia. Tomó un poco más de tiempo de lo esperado, pero definitivamente fue mucho más rápido que las API de voz a texto de Google o Azure.

El resultado no fue perfecto, pero fue extremadamente bueno: entendía siglas y términos técnicos. Abrí el mismo archivo de audio en Aiko, una aplicación para Mac desarrollada por Sindre Sorhus y que te permite transcribir archivos de audio localmente usando Whisper. Como era de esperar, la salida fue similar a la de Gladia, pero Gladia fue mucho más rápida que ejecutar Aiko en mi MacBook Pro.

En general, Gladia fue la mejor API de transcripción que he usado.

Convertirse en una API de inteligencia de audio

Actualmente, la empresa trabaja con empresas de centros de llamadas, servicios de reuniones virtuales y editores de videos, incluidos Claap, Tormenta en vivo y Selectra.

Gladia recaudó una ronda inicial de $ 4 millones en una ronda de financiación dirigida por Nueva ola. Otros inversores incluyen a Sequoia, Cocoa y business angels, como Solomon Hykes, Pierre Betouin, Miroslaw Klaba y Alexandre Berriche.

Tener una API de transcripción sólida como una roca es solo el primer paso para Gladia. La compañía espera que luego pueda construir funciones sobre esta sólida base técnica.

Por ejemplo, después de transcribir un archivo de audio, Gladia puede traducir el texto a otro idioma. Combinado con marcas de tiempo a nivel de palabra, significa que una empresa puede cargar un archivo de audio y obtener subtítulos en docenas de idiomas en solo unos minutos.

En el futuro, la empresa espera poder resumir el contenido de un archivo de audio, categorizar el contenido en múltiples categorías de temas, crear capítulos automáticamente, realizar análisis de sentimientos y más.

“Nuestra visión a largo plazo es pasar de datos 2D a 3D. El audio es bastante plano y la idea es aumentarlo con inteligencia”, dijo Quéguiner. “Creemos que la transcripción se convertirá en una mercancía. Pero creemos que lo que va a importar más son las opciones que vamos a agregar”.

Source link