AssemblyAI obtiene $ 28 millones para API todo en uno para transcribir, resumir y moderar audio

La explosión en el contenido de audio y video y las interfaces en los últimos años ha sido evidente, pero las formas de lidiar con todos esos medios detrás de escena no se han puesto al día. AsambleaAIimpulsado por $ 28 millones en nuevos fondos, tiene como objetivo convertirse en la solución de referencia para analizar el habla, ofreciendo un acceso API ultra simple para transcribir, resumir y averiguar qué está sucediendo en miles de transmisiones de audio a la vez.

La multimedia se ha convertido en el estándar para muchas cosas en un tiempo increíblemente corto: las llamadas telefónicas y las reuniones se convirtieron en videollamadas, las publicaciones en las redes sociales se convirtieron en clips de 10 segundos, los chatbots aprendieron a hablar y comprender el habla. Están apareciendo innumerables aplicaciones nuevas y, como cualquier industria nueva y en crecimiento, las personas deben poder trabajar con los datos que producen esas aplicaciones para ejecutarlas bien o construir algo nuevo sobre ellas.

El problema es que el audio no es naturalmente fácil de trabajar. ¿Cómo se “busca” un flujo de audio? Puede mirar la forma de onda o desplazarse por ella, pero lo más probable es que desee transcribirla primero y luego buscar el texto resultante. Ahí es donde interviene AssemblyAI: aunque existen numerosos servicios de transcripción, a menudo no es fácil integrarlos en su propia aplicación o proceso empresarial.

“Si desea moderar contenido, buscar o resumir datos de audio, debe convertir esos datos en un formato que sea más flexible y sobre el que pueda crear funciones y procesos comerciales”, dijo el director ejecutivo y codirector de AssemblyAI. fundador Dylan Fox. “Así que pensamos, construyamos una API de análisis de voz súper precisa a la que cualquiera pueda llamar, incluso en un hackathon, como una integración de estilo Twilio o Stripe. Las personas necesitan mucha ayuda para crear estas funciones, pero no quieren unir a un montón de proveedores”.

AssemblyAI ofrece un puñado de API diferentes a las que puede llamar de manera extremadamente simple (una línea o dos de código) para realizar tareas como “verificar este podcast en busca de contenido prohibido”, o “identificar a los oradores en esta conversación” o “resumir esta reunión en menos de 100 palabras.”

Codifícalo, llámalo y listo. Créditos de imagen: AsambleaAI

Usted puede muy bien, como yo, ser escéptico de que una sola pequeña empresa pueda producir herramientas de trabajo para realizar tantas tareas de manera tan simple, considerando cuán complejas resultan esas tareas una vez que se involucra en ellas. Fox reconoció que esto es un desafío, pero dijo que la tecnología ha recorrido un largo camino en poco tiempo.

“Ha habido un rápido aumento en la precisión de estos modelos, especialmente en los últimos años”, dijo. “Resumen, identificación de sentimientos… todos son realmente buenos ahora. Y en realidad estamos impulsando el estado del arte: nuestros modelos son mejores que los que existen, porque somos una de las pocas empresas emergentes que realmente realiza investigaciones de aprendizaje profundo a gran escala. Vamos a gastar más de un millón de dólares en GPU y computación para I+D y capacitación, solo en los próximos meses”.

Puede ser más difícil de entender intuitivamente porque no es tan fácil de demostrar, pero los modelos de lenguaje han aparecido al igual que cosas como la generación de imágenes (Este ___ no existe) y la visión por computadora (Face ID, cámaras de seguridad). Por supuesto, GPT-3 es un ejemplo familiar de esto, pero Fox señaló que comprender y generar la palabra escrita es prácticamente un dominio de investigación completamente diferente al análisis de la conversación y el habla casual. Por lo tanto, aunque los mismos avances en técnicas de aprendizaje automático (como transformadores y marcos de entrenamiento nuevos y más eficientes) han contribuido a ambos, son como manzanas y naranjas en la mayoría de los sentidos.

El resultado, en cualquier caso, ha sido que es posible realizar procesos de moderación o resumen efectivos en un clip de audio de unos segundos o una hora de duración, simplemente llamando a la API. Eso es inmensamente útil cuando está creando o integrando una función como, por ejemplo, un video de formato corto: si espera que se carguen cien mil clips cada hora, ¿cuál es su proceso para asegurarse de que no sean pornográficos? , o estafas, o duplicados? ¿Y cuánto tiempo se retrasará el lanzamiento mientras construye ese proceso?

Fox espera que, en cambio, las empresas en esta posición busquen una manera fácil y efectiva de avanzar, como lo harían si tuvieran que agregar un proceso de pago. Seguro que podría crear uno desde cero, o podría agregar Stripe en aproximadamente 15 minutos. Esto no solo es fundamentalmente deseable, sino que los separa claramente de los paquetes de servicios múltiples más complejos que definen los productos de análisis de audio de grandes proveedores como Microsoft y Amazon.

El Zorro en cuestión. Créditos de imagen: Jens Panduro

La empresa ya tiene cientos de clientes que pagan, triplicó los ingresos en el último año y ahora procesa un millón de transmisiones de audio al día. “Estamos 100% en vivo. Hay un gran mercado y una gran necesidad, y el gasto de los clientes está ahí”, dijo Fox.

La ronda A de $ 28 millones fue “dirigida por Accel, con la participación de Y Combinator, John y Patrick Collison (Stripe), Nat Friedman (GitHub) y Daniel Gross (Pioneer)”. El plan es distribuir todos esos ceros en la contratación, la infraestructura de I+D y la construcción de la cartera de productos. Como señaló Fox, la compañía gastará un millón en GPU y servidores en los próximos meses, un montón de Nvidia A100 que impulsarán los procesos de investigación y capacitación increíblemente intensivos en computación. De lo contrario, se verá obligado a pagar por los servicios en la nube, por lo que es mejor quitarse el curita pronto.

En cuanto al reclutamiento, sugerí que podrían tener dificultades para contratar personal en competencia directa con Google y Facebook, que por supuesto están trabajando arduamente en sus propias canalizaciones de análisis de audio. Fox se mostró optimista, sin embargo, sintiendo que la cultura allí puede ser lenta y sofocante.

“Creo que definitivamente hay un deseo en los investigadores e ingenieros de IA realmente buenos de querer trabajar en la vanguardia, y en la producción”, dijo. “Se te ocurre algo innovador, y unas semanas más tarde lo tienes en producción… una startup es el único lugar donde puedes hacer cosas así”.

Source link