Deepgram, una compañía que desarrolla tecnología de reconocimiento de voz para la empresa, recaudó hoy $47 millones en nuevos fondos liderados por Madrona Venture Group con la participación de Citi Ventures y Alkeon. Una extensión de la Serie B de Deepgram que comenzó en febrero de 2021, dirigida por Tiger Global, lleva el total recaudado de la startup a $ 86 millones, que el CEO Scott Stephenson dice que se está destinando a I + D en áreas como detección de emociones, reconocimiento de intenciones, resumen, tema detección, traducción y redacción.
“Nos complace que Deepgram haya logrado su valoración antes y después del dinero más alta de la historia, incluso a pesar de las desafiantes condiciones del mercado”, dijo Stephenson a TechCrunch en una entrevista por correo electrónico. (Desafortunadamente, no quiso revelar cuál era exactamente la valoración). “Creemos que Deepgram está en una posición sólida para prosperar en este entorno macroeconómico más difícil. La inteligencia artificial del habla de Deepgram es la tecnología central detrás de muchas de las aplicaciones de nuestros clientes, y la demanda de comprensión del habla crece a medida que las empresas buscan una mayor eficiencia”.
Lanzado en 2015, Deepgram se enfoca en crear soluciones personalizadas de reconocimiento de voz para clientes como Spotify, Auth0 e incluso la NASA. Los científicos de datos de la compañía obtienen, crean, etiquetan y evalúan datos de voz para producir modelos de reconocimiento de voz que pueden comprender marcas y jerga, capturar una variedad de idiomas y acentos y adaptarse a entornos de audio desafiantes. Por ejemplo, para la NASA, Deepgram construyó un modelo para transcribir las comunicaciones entre el Control de la Misión y la Estación Espacial Internacional.
“Los datos de audio son una de las fuentes de datos sin explotar más grandes del mundo. [But] es difícil de usar en su formato de audio porque el audio es un tipo de datos no estructurados y, por lo tanto, no se puede extraer para obtener información sin un procesamiento adicional”, dijo Stephenson. “Deepgram toma datos de audio no estructurados y los estructura como texto y metadatos a altas velocidades y bajos costos diseñados para escala empresarial… [W]con deepgram, [companies] puede enviar todo el audio de sus clientes (cientos de miles o millones de horas) para transcribirlo y analizarlo”.
¿De dónde provienen los datos de audio para entrenar los modelos de Deepgram? Stephenson fue un poco tímido allí, aunque no negó que Deepgram usa los datos de los clientes para mejorar sus sistemas. Se apresuró a señalar que la empresa cumple con el RGPD y permite a los usuarios solicitar que se eliminen sus datos en cualquier momento.
“Los modelos de Deepgram se entrenan principalmente con datos recopilados o generados por nuestros expertos en conservación de datos, junto con algunos datos anónimos enviados por nuestros usuarios”, dijo Stephenson. “Los modelos de entrenamiento sobre datos del mundo real son la piedra angular de la calidad de nuestro producto; es lo que permite que los sistemas de aprendizaje automático como el nuestro produzcan resultados similares a los humanos. Dicho esto, permitimos que nuestros usuarios opten por que sus datos anónimos no se utilicen para capacitación si así lo desean”.
A través de la API de Deepgram, las empresas pueden construir la plataforma en sus pilas tecnológicas para habilitar las automatizaciones basadas en voz y las experiencias del cliente. Para organizaciones en sectores fuertemente regulados, como atención médica y gobierno, Deepgram ofrece una opción de implementación local que permite a los clientes administrar y procesar datos localmente. (Vale la pena señalar que In-Q-Tel, el brazo de inversión estratégica de la CIA, ha respaldado a Deepgram en el pasado).
Deepgram, un graduado de Y Combinator fundado por Stephenson y Noah Shutty, un graduado de física de la Universidad de Michigan, compite con varios proveedores en un mercado de reconocimiento de voz que podría tener un valor de $ 48.8 mil millones para 2030. de acuerdo a a una fuente (¿optimista?). Gigantes tecnológicos como Nuance, Cisco, Google, Microsoft y Amazon ofrecen servicios de transcripción y subtitulado de voz en tiempo real, al igual que empresas emergentes como Otter, Speechmatics, Voicera y Verbit.
La tecnología tiene obstáculos que superar. Según un 2022 reporte por Speechmatics, el 29% de los ejecutivos han observado sesgos de IA en las tecnologías de voz, específicamente desequilibrios en los tipos de voces que se entienden mediante el reconocimiento de voz. Pero la demanda es evidentemente lo suficientemente fuerte como para apuntalar la gama de proveedores que existen; Stephenson afirma que Deepgram márgenes brutos están “en línea con las empresas de software de mayor rendimiento”.
Eso contrasta con el mercado de reconocimiento de voz del consumidor, que últimamente ha empeorado. Alexa de Amazon división según se informa, está en camino de perder $ 10 mil millones este año. y google es rumoreado estar considerando recortes en el desarrollo del Asistente de Google a favor de proyectos más rentables.
En los últimos meses, Stephenson dice que el enfoque de Deepgram se ha centrado en la traducción de idiomas sobre la marcha, el análisis de sentimientos y las transcripciones divididas de conversaciones multidireccionales. La empresa también está escalando y ahora llega a más de 300 clientes y más de 15 000 usuarios.
A la caza de nuevos negocios, Deepgram lanzó recientemente el Programa de inicio de Deepgram, que ofrece $ 10 millones en créditos gratuitos de reconocimiento de voz en la plataforma de Deepgram para nuevas empresas en educación y empresas. Las empresas participantes no necesitan pagar ningún tipo de tarifa y pueden usar los fondos junto con los beneficios existentes de subvenciones, semillas, incubadoras y aceleradoras.
“El negocio de Deepgram continúa creciendo rápidamente. Como empresa de infraestructura de IA fundacional, no hemos visto una reducción en la demanda de Deepgram”, dijo Stephenson. “De hecho, hemos visto a las empresas buscar formas de reducir costos y delegar tareas repetitivas y serviles a las IA, dando a los humanos más tiempo para realizar un trabajo interesante y con consecuencias. Ejemplos de esto incluyen la reducción de grandes costos de cómputo en la nube al cambiar la transcripción de la gran nube al producto de transcripción de Deepgram, o en nuevos casos de uso como pedidos desde el automóvil y clasificación de la primera ronda de respuestas de servicio al cliente”.
Deepgram tiene actualmente 146 empleados distribuidos en oficinas en Ann Arbor y San Francisco. Cuando se le preguntó acerca de los planes de contratación para el resto del año, Stephenson se negó a responder, sin duda consciente de la imprevisibilidad de la economía global actual y la óptica de comprometerse con un número firme.
Source link