Heartex, una empresa emergente que se anuncia a sí misma como una plataforma de “código abierto” para el etiquetado de datos, anunció hoy que obtuvo $25 millones en una ronda de financiación de la Serie A dirigida por Redpoint Ventures. También participaron Unusual Ventures, Bow Capital y Swift Ventures, lo que elevó el capital total recaudado de Heartex a $30 millones.
El cofundador y director ejecutivo, Michael Malyuk, dijo que el nuevo dinero se destinará a mejorar el producto de Heartex y expandir el tamaño de la fuerza laboral de la empresa de 28 a 68 personas para fin de año.
“Procedentes de la ingeniería y el aprendizaje automático, [Heartex’s founding team] sabía el valor que el aprendizaje automático y la IA pueden aportar a la organización”, dijo Malyuk a TechCrunch por correo electrónico. “En ese momento, todos trabajábamos en diferentes empresas y en diferentes industrias, pero compartíamos la misma lucha con la precisión del modelo debido a la baja calidad de los datos de capacitación. Estuvimos de acuerdo en que la única solución viable era tener equipos internos con experiencia en el dominio que fueran responsables de anotar y seleccionar los datos de capacitación. ¿Quién puede proporcionar los mejores resultados además de sus propios expertos?”
Los desarrolladores de software Malyuk, Maxim Tkachenko y Nikolay Lyubimov cofundaron Heartex en 2019. Liubimov fue ingeniero sénior en Huawei antes de mudarse a Yandex, donde trabajó como desarrollador back-end en tecnologías de voz y sistemas de diálogo.
Panel de control de Heartex.
Los vínculos con Yandex, una empresa a la que a veces se hace referencia como el “Google de Rusia”, podrían inquietar a algunos, especialmente a la luz de las acusaciones de la Unión Europea de que la división de noticias de Yandex desempeñó un papel importante en la difusión de la propaganda del Kremlin. Heartex tiene una oficina en San Francisco, California, pero varios de los ingenieros de la empresa se encuentran en la antigua República Soviética de Georgia.
Cuando se le pregunta, Heartex dice que no recopila ningún dato de los clientes y abre el núcleo de su plataforma de etiquetado para su inspección. “Hemos construido una arquitectura de datos que mantiene la privacidad de los datos en el almacenamiento del cliente, separando el plano de datos y el plano de control”, agregó Malyuk. “Con respecto al equipo y sus ubicaciones, somos un equipo muy internacional sin miembros actuales con sede en Rusia”.
Dejando de lado sus afiliaciones geopolíticas, Heartex tiene como objetivo abordar lo que Malyuk considera un obstáculo importante en la empresa: extraer valor de los datos aprovechando la IA. Hay una ola creciente de empresas que aspiran a convertirse en ‘centradas en los datos’: Gartner recientemente reportado que el uso empresarial de la IA creció un 270 % en los últimos años. Pero muchas organizaciones están luchando para utilizar la IA al máximo.
“Habiendo llegado a un punto de rendimientos decrecientes en el desarrollo de algoritmos específicos, las empresas están invirtiendo en perfeccionar el etiquetado de datos como parte de sus iniciativas estratégicas centradas en los datos”, dijo Malyuk. “Esta es una progresión de las prácticas de desarrollo anteriores que se centraron casi exclusivamente en el desarrollo y ajuste de algoritmos”.
Si, como afirma Malyuk, el etiquetado de datos está recibiendo una mayor atención de las empresas que buscan IA, es porque el etiquetado es una parte central del proceso de desarrollo de IA. Muchos sistemas de IA “aprenden” a dar sentido a imágenes, videos, texto y audio a partir de ejemplos que han sido etiquetados por equipos de anotadores humanos. Las etiquetas permiten que los sistemas extrapolen las relaciones entre los ejemplos (p. ej., el vínculo entre el título “fregadero de cocina”: y una foto de un fregadero de cocina) a datos que los sistemas no han visto antes (p. ej., fotos de fregaderos de cocina que no se incluyeron en los datos utilizados para “enseñar” el modelo).
El problema es que no todas las etiquetas son iguales. Etiquetar datos como contratos legales, imágenes médicas y literatura científica requiere experiencia en el dominio que no tiene cualquier anotador. Y, siendo humanos, los anotadores cometen errores. en un MIT análisis de conjuntos de datos populares de IA, los investigadores encontraron datos mal etiquetados como una raza de perro confundida con otra y una nota alta de Ariana Grande categorizada como un silbido.
Malyuk no afirma que Heartex resuelva por completo estos problemas. Pero en una entrevista, explicó que la plataforma está diseñada para admitir flujos de trabajo de etiquetado para diferentes casos de uso de IA, con características que tocan la gestión de calidad de datos, informes y análisis. Por ejemplo, los ingenieros de datos que utilizan Heartex pueden ver los nombres y las direcciones de correo electrónico de los anotadores y revisores de datos, que están vinculados a las etiquetas con las que contribuyeron o auditaron. Esto ayuda a monitorear la calidad de la etiqueta e, idealmente, a solucionar problemas antes de que afecten los datos de entrenamiento.
“El ángulo para el C-suite es bastante simple. Se trata de mejorar la precisión del modelo de IA de producción al servicio de lograr el objetivo comercial del proyecto”, dijo Malyuk. “Estamos descubriendo que la mayoría de los gerentes de C-suite con responsabilidades de IA, aprendizaje automático y/o ciencia de datos han confirmado a través de la experiencia que, con inversiones más estratégicas en personas, procesos, tecnología y datos, la IA puede brindar un valor extraordinario a la negocio a través de una multitud de diversos casos de uso. También vemos que el éxito tiene un efecto de bola de nieve. Los equipos que encuentran el éxito temprano pueden crear modelos adicionales de alto valor más rápidamente, basándose no solo en sus primeros aprendizajes, sino también en los datos adicionales generados a partir del uso de los modelos de producción”.
En el ámbito del conjunto de herramientas de etiquetado de datos, Heartex compite con nuevas empresas como AIMMO, Labelbox, Scale AI y Snorkel AI, así como con Google y Amazon (que ofrece productos de etiquetado de datos a través de Google Cloud y SageMaker, respectivamente). Pero Malyuk cree que el enfoque de Heartex en el software en lugar de los servicios lo distingue del resto. A diferencia de muchos de sus competidores, la startup no vende servicios de etiquetado a través de su plataforma.
“Como hemos construido una solución verdaderamente horizontal, nuestros clientes provienen de una variedad de industrias. Tenemos pequeñas empresas emergentes como clientes, así como varias empresas Fortune 100. [Our platform] ha sido adoptado por más de 100,000 científicos de datos en todo el mundo”, dijo Malyuk, mientras se negaba a revelar las cifras de ingresos. “[Our customers] están estableciendo equipos internos de anotación de datos y comprando [our product] porque sus modelos de IA de producción no funcionan bien y reconocen que la mala calidad de los datos de entrenamiento es la causa principal”.
Source link