El camino de Scale AI para convertirse en una empresa de $ 7.3 mil millones se pavimentó con datos reales de imágenes, texto, voz y video. Ahora, está utilizando esa base para ingresar al juego de datos sintéticos, una de las categorías más populares y emergentes en IA.
Anunciaron el miércoles un programa de acceso anticipado a Escala sintética, un producto que los ingenieros de aprendizaje automático pueden usar para mejorar sus conjuntos de datos existentes del mundo real, según la compañía. Scale contrató a dos ejecutivos para desarrollar esta nueva división de su negocio. Scale contrató a Joel Kronander, quien anteriormente dirigió el aprendizaje automático en Nines y fue un ex ingeniero de visión por computadora en Apple que trabajaba en mapeo 3D, como su nuevo jefe de datos sintéticos. La empresa también contrató a Vivek Raju Muppalla como su director de servicios sintéticos. Muppalla fue anteriormente director de ingeniería para IA y simulación en Unity Technologies.
Los datos sintéticos son como suenan: datos falsos creados por algoritmos de aprendizaje automático en lugar de utilizar información del mundo real. Puede ser una herramienta poderosa y útil para generar datos, como imágenes médicas, cuando la privacidad es una preocupación principal. Los desarrolladores pueden usar datos sintéticos para agregar más complejidad a sus modelos de entrenamiento y ayudar a eliminar los sesgos que a menudo se pueden encontrar en los conjuntos de datos del mundo real recopilados.
Escale inicialmente el software combinado con imágenes reales, texto, voz y datos de video etiquetados por personas para brindar a las empresas de vehículos autónomos los datos etiquetados necesarios para entrenar modelos de aprendizaje automático para desarrollar e implementar robotaxis, camiones autónomos y bots automatizados utilizados en almacenes y en- entrega de la demanda. Desde entonces, la startup se ha transformado en una empresa de plataforma de gestión de datos con clientes que abarcan industrias gubernamentales, financieras, de comercio electrónico, de vehículos autónomos y empresariales.
El fundador y director ejecutivo, Alexandr Wang, describió su nueva oferta como un enfoque híbrido de los datos, similar a la carne cultivada en laboratorio.
“Comenzamos con datos reales, al igual que la carne cultivada en laboratorio comienza a partir de células animales reales, y luego crecemos, iteramos y creamos el producto a partir de ahí”, dijo a TechCrunch. Al usar datos del mundo real como base para crear datos sintéticos, la compañía puede ofrecer una oferta realmente única y poderosa para los clientes, dijo Wang, y agregó que esta era una brecha que vieron en el mercado.
Los clientes de Scale también vieron esa brecha. El impulso de la compañía hacia los datos sintéticos fue en respuesta a la demanda de sus clientes, dijo Wang a TechCrunch, quien dijo que comenzaron a desarrollar el producto hace menos de un año. El desarrollador de tecnología de vehículos autónomos Kodiak Robotics, Tractable AI y el Departamento de Defensa de EE. UU. han elegido a Scale para su nuevo producto de datos sintéticos, dijo Wang.
Scale, que actualmente emplea a unos 450 empleados, considera que los datos sintéticos son una prioridad principal en 2022 y un área en la que continuará invirtiendo a medida que desarrolla su línea de productos. Pero eso no significa que se hará cargo de su negocio de datos reales. Wang ve los datos sintéticos como una herramienta complementaria que ayudará a los desarrolladores a “obtener más por su dinero de sus algoritmos y otra IA y particularmente con casos extremos.
Por ejemplo, las empresas de vehículos autónomos suelen utilizar la simulación para recrear escenarios del mundo real y reproducirlos para ver cómo los manejará el sistema autónomo. Pero es posible que los datos del mundo real no proporcionen el escenario que están buscando.
“No te encuentras con situaciones en el mundo real con demasiada frecuencia donde podría haber, digamos, 100 ciclistas cruzando a la vez”, explicó Wang. “Podemos comenzar con datos del mundo real y luego agregar sintéticamente a todos los ciclistas o a todas las personas y luego, de esa manera, puede entrenar el algoritmo correctamente”.
Source link