La plataforma de integración Cinchy consigue dinero fresco para conectar fuentes de datos

Dataloop asegura la infusión de efectivo para expandir su conjunto de herramientas de anotación de datos

La anotación de datos, o el proceso de agregar etiquetas a imágenes, texto, audio y otras formas de datos de muestra, suele ser un paso clave en el desarrollo de sistemas de IA. La gran mayoría de los sistemas aprenden a hacer predicciones asociando etiquetas con muestras de datos específicos, como el título “oso” con una foto de un oso negro. Un sistema entrenado en muchos ejemplos etiquetados de diferentes tipos de contratos, por ejemplo, eventualmente aprendería a distinguir entre esos contratos e incluso extrapolar a contratos que no ha visto antes.

El problema es que la anotación es un proceso manual y laborioso que históricamente ha sido asignado a trabajadores independientes en plataformas como Amazon Mechanical Turk. Pero con el creciente interés en la IA, y en los datos utilizados para entrenar esa IA, ha surgido toda una industria en torno a las herramientas para la anotación y el etiquetado.

Bucle de datos, una de las muchas nuevas empresas que compiten por un punto de apoyo en el mercado naciente, anunció hoy que recaudó $ 33 millones en una ronda de Serie B liderada por Nokia Growth Partners (NGP) Capital y Alpha Wave Global. Dataloop desarrolla software y servicios para automatizar aspectos de la preparación de datos, con el objetivo de reducir el tiempo del proceso de desarrollo del sistema de IA.

“Trabajé en Intel durante más de 13 años, y ahí es donde conocí al segundo cofundador y CPO de Dataloop, Avi Yashar”, dijo el director ejecutivo de Dataloop, Eran Shlomo, a TechCrunch en una entrevista por correo electrónico. “Junto con Avi, dejé Intel y fundé Dataloop. nir [Buschi]nuestro CBO, se unió a nosotros como tercer cofundador, luego de ocupar cargos ejecutivos [at] empresas de tecnología y [lead] negocios y lanzamiento al mercado en nuevas empresas respaldadas por capital de riesgo”.

Dataloop se centró inicialmente en la anotación de datos para visión por computadora y análisis de video. Pero en los últimos años, la compañía agregó nuevas herramientas para datos de texto, audio, formularios y documentos y permitió a los clientes integrar aplicaciones de datos personalizadas desarrolladas internamente.

Una de las incorporaciones más recientes a la plataforma Dataloop son los paneles de administración de datos para datos no estructurados. (A diferencia de los datos estructurados, o los datos que se organizan en un formato estandarizado, los datos no estructurados no se organizan de acuerdo con un modelo o esquema común). Cada uno proporciona herramientas para el control de versiones de datos y la búsqueda de metadatos, así como un lenguaje de consulta para consultar conjuntos de datos. y visualización de muestras de datos.

Créditos de imagen: Bucle de datos

“Todos los modelos de IA se aprenden de los humanos a través del proceso de etiquetado de datos. El proceso de etiquetado es esencialmente un proceso de codificación de conocimiento en el que un humano le enseña a la máquina las reglas usando ejemplos de datos positivos y negativos”, dijo Shlomo. “El objetivo principal de cada aplicación de IA es crear el ‘efecto volante de datos’ utilizando los datos de sus clientes: un mejor producto lleva a más usuarios, lleva a más datos y, posteriormente, a un mejor producto”.

Dataloop compite contra pesos pesados ​​en el espacio de anotación y etiquetado de datos, incluido Scale AI, que ha recaudado más de $ 600 millones en capital de riesgo. Labelbox es otro rival importante, ya que recientemente obtuvo más de $ 110 millones en una ronda de financiamiento liderada por SoftBank. Más allá del ámbito de las empresas emergentes, los gigantes tecnológicos, incluidos Google, Amazon, Snowflake y Microsoft, ofrecen sus propios servicios de anotación de datos.

Dataloop debe estar haciendo algo bien. Shlomo afirma que la compañía actualmente tiene “cientos” de clientes en comercio minorista, agricultura, robótica, vehículos autónomos y construcción, aunque se negó a revelar cifras de ingresos.

Una pregunta abierta es si la plataforma de Dataloop resuelve algunos de los principales desafíos que existen en el etiquetado de datos en la actualidad. El año pasado, un artículo publicado por el MIT descubrió que el etiquetado de datos tiende a ser muy inconsistente, lo que podría dañar la precisión de los sistemas de IA. Un creciente cuerpo de investigación académica sugiere que los anotadores introducen sus propios sesgos al etiquetar los datos, por ejemplo, etiquetado frases en inglés afroamericano (un dialecto moderno hablado principalmente por afroamericanos) como más tóxicas que los equivalentes generales del inglés americano. Estos sesgos a menudo se manifiestan de manera desafortunada; piensa en algoritmos de moderación que son más como prohibir a los usuarios negros que a los usuarios blancos.

Los etiquetadores de datos también están notoriamente mal pagados. Los anotadores que contribuyeron con subtítulos a ImageNet, una de las bibliotecas de visión por computadora de código abierto más conocidas, supuestamente ganaron una mediana de $ 2 por hora en salarios.

Shlomo dice que corresponde a las empresas que utilizan las herramientas de Dataloop influir en el cambio, no necesariamente a Dataloop en sí.

“Vemos el pago insuficiente de los anotadores como una falla del mercado. La anotación de datos comparte muchas cualidades con el desarrollo de software, una de ellas es el impacto del talento en la productividad”, dijo Shlomo. “[As for bias,] El sesgo en la IA comienza con la pregunta que el desarrollador de la IA elige hacer y las instrucciones que proporciona a las empresas de etiquetado. Lo llamamos el ‘sesgo primario’. Por ejemplo, nunca podría identificar el sesgo de color a menos que solicite el color de la piel en su receta de etiquetado. El principal problema de sesgo es algo que la industria y los reguladores deberían abordar. La tecnología por sí sola no resolverá el problema”.

Hasta la fecha, Dataloop, que tiene 60 empleados, ha recaudado $50 millones en capital de riesgo. La compañía planea aumentar su fuerza laboral a 80 empleados para fin de año.


Source link