Snorkel AI obtiene $ 35 millones de la Serie B para automatizar el etiquetado de datos en el aprendizaje automático

Abr 7, 2021

—

por

Uno de los aspectos más tediosos del aprendizaje automático es proporcionar un conjunto de etiquetas para enseñar al modelo de aprendizaje automático lo que necesita saber. Snorkel AI quiere facilitar que los expertos en la materia apliquen esas etiquetas de manera programática, y hoy la startup anunció una Serie B de $ 35 millones.

También anunció una nueva herramienta llamada Application Studio que proporciona una forma de crear aplicaciones de aprendizaje automático comunes utilizando plantillas y componentes predefinidos.

Lightspeed Venture Partners lideró la ronda con la participación de inversores anteriores Greylock, GV, In-Q-Tel y Nepenthe Capital. Los nuevos inversores Walden y BlackRock también se unieron. La startup informa que ahora ha recaudado $ 50 millones.

El cofundador y CEO de la empresa, Alex Ratner, dice que el etiquetado de datos sigue siendo un gran desafío y un obstáculo para hacer avanzar el aprendizaje automático y la inteligencia artificial dentro de muchas industrias porque es costoso, laborioso y difícil para los expertos en la materia ganar tiempo. para hacerlo.

“El secreto no tan oculto sobre la IA hoy en día es que, a pesar de todos los avances tecnológicos y de herramientas, aproximadamente del 80 al 90% del costo y el tiempo de un proyecto de IA promedio se destina al etiquetado manual, la recopilación y el reetiquetado de estos datos de capacitación”. él dijo.

Dice que su empresa ha desarrollado una solución para simplificar este proceso y facilitar que los expertos en la materia agreguen las etiquetas mediante programación, un proceso que, según él, reduce el tiempo y el esfuerzo necesarios para aplicar etiquetas de una manera bastante espectacular de meses a horas o días. , dependiendo de la complejidad de los datos.

A medida que la empresa ha desarrollado esta metodología, los clientes han estado pidiendo ayuda en el siguiente paso del proceso de aprendizaje automático, que consiste en tomar esos datos de entrenamiento y el modelo y crear una aplicación. Ahí es donde entra en juego Application Studio. Podría ser un clasificador de contrato en un banco o un detector de anomalías de red en una empresa de telecomunicaciones y ayuda a las empresas a dar el siguiente paso después del etiquetado de datos.

“No se trata solo de cómo se etiquetan los datos mediante programación, también se trata de los modelos, los preprocesadores, los posprocesadores, por lo que lo hemos hecho ahora accesible en una especie de interfaz sin código visual y con plantilla”, dijo.

Los productos de la compañía se basan en una investigación que comenzó en el Stanford AI Lab en 2015. Los fundadores pasaron cuatro años en la fase de investigación antes de lanzar Snorkel en 2019. Hoy, la startup tiene 40 empleados. Ratner reconoce los problemas que ha tenido la industria de la tecnología desde una perspectiva de diversidad y dice que ha hecho un esfuerzo consciente para construir una empresa diversa e inclusiva.

“Lo que puedo decir es que intentamos priorizarlo a nivel de empresa, a nivel de equipo completo y a nivel de junta desde el primer día, y también poner acción detrás de eso. Así que hemos estado trabajando con firmas externas para capacitación interna, auditorías y estrategia en torno a DEI, y hemos hecho de la diversidad de la tubería un requisito no negociable de cualquiera de nuestros contratos con firmas de reclutamiento ”, dijo.

Ratner también reconoce que la automatización puede codificar de forma rígida el sesgo en los modelos de aprendizaje automático, y tiene la esperanza de que, al simplificar el proceso de etiquetado, sea mucho más fácil detectar el sesgo cuando suceda.

“Si comienza con una docena o dos docenas de lo que llamamos funciones de etiquetado en Snorkel, aún debe estar atento y ser proactivo para tratar de detectar sesgos, pero es más fácil auditar lo que le enseñó a su modelo a cambiarlo simplemente retrocediendo y mirando un par de cientos de líneas de código “.

Source link

Tecnología