Synthesis AI recauda $ 17 millones para generar datos sintéticos para visión por computadora

IA de síntesis, una startup que desarrolla una plataforma que genera datos sintéticos para entrenar sistemas de IA, anunció hoy que recaudó $17 millones en una ronda de financiamiento Serie A liderada por 468 Capital con la participación de Sorenson Ventures y Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital y Kubera Venture Capital. El director ejecutivo y fundador, Yashar Behzadi, dice que las ganancias se destinarán a la I+D de productos, al crecimiento del equipo de la empresa y a la expansión de la investigación, especialmente en el área de datos mixtos reales y sintéticos.

Los datos sintéticos, o datos que se crean artificialmente en lugar de capturarse del mundo real, se utilizan cada vez más en la ciencia de datos a medida que crece la demanda de sistemas de IA. Los beneficios son obvios: si bien la recopilación de datos del mundo real para desarrollar un sistema de IA es costosa y laboriosa, se puede generar una cantidad teóricamente infinita de datos sintéticos para adaptarse a cualquier criterio. Por ejemplo, un desarrollador podría usar imágenes sintéticas de automóviles y otros vehículos para desarrollar un sistema que pueda diferenciar entre marcas y modelos.

Como era de esperar, Gartner predice que el 60% de los datos utilizados para el desarrollo de proyectos de inteligencia artificial y análisis serán sintéticos para 2024. Uno encuesta llamó al uso de datos sintéticos “una de las técnicas generales más prometedoras en aumento en [AI].”

Pero los datos sintéticos tienen limitaciones. Si bien puede imitar muchas propiedades de los datos reales, no es una copia exacta. Y la calidad de los datos sintéticos depende de la calidad del algoritmo que los creó.

Behzadi, por supuesto, afirma que Synthesis ha dado pasos significativos para superar estos obstáculos técnicos. Behzadi, ex científico de la empresa de servicios gubernamentales de TI SAIC y creador de PopSlate, una funda para teléfono inteligente con una pantalla de tinta electrónica incorporada, fundó Synthesis en AI en 2019 con el objetivo de, en sus palabras, “resolver el problema de los datos en AI”. y transformar[ing] El paradigma de la visión por computadora.

“A medida que las empresas desarrollan nuevo hardware, nuevos modelos o expanden su base geográfica y de clientes, se requieren nuevos datos de capacitación para garantizar que los modelos funcionen adecuadamente”, dijo Behzadi a TechCrunch por correo electrónico. “Las empresas también están luchando con problemas éticos relacionados con el sesgo del modelo y la privacidad del consumidor en productos centrados en el ser humano. Está claro que se requiere un nuevo paradigma para construir la próxima generación de visión artificial”.

En la mayoría de los sistemas de IA, las etiquetas, que pueden presentarse en forma de subtítulos o anotaciones, se utilizan durante el proceso de desarrollo para “enseñar” al sistema a reconocer ciertos objetos. Los equipos normalmente tienen que agregar minuciosamente etiquetas a las imágenes del mundo real, pero las herramientas sintéticas como Synthesis eliminan la necesidad, en teoría.

La plataforma basada en la nube de Synthesis permite a las empresas generar datos de imágenes sintéticas con etiquetas utilizando una combinación de tecnologías de renderizado de IA, generación de procedimientos y VFX. Para los clientes que desarrollan algoritmos para enfrentar desafíos como reconocer rostros y monitorear conductores, por ejemplo, Synthesis generó aproximadamente 100,000 “personas sintéticas” que abarcan diferentes géneros, edades, IMC, tonos de piel y etnias. A través de la plataforma, los científicos de datos podían personalizar las poses de los avatares, así como su cabello, vello facial, vestimenta (por ejemplo, máscaras y anteojos) y aspectos ambientales como la iluminación e incluso el “tipo de lente” de la cámara virtual.

“Las empresas líderes en el espacio AR, VR y metaverso están utilizando nuestros diversos humanos digitales y acompañando un rico conjunto de puntos de referencia faciales y corporales en 3D para crear avatares más realistas y emotivos”, dijo Behzadi. “[Meanwhile,] nuestros clientes de teléfonos inteligentes y dispositivos de consumo están utilizando datos sintéticos para comprender el rendimiento de varios módulos de cámara… Varios de nuestros clientes están construyendo un sistema de detección de conductores y ocupantes de automóviles. Aprovecharon los datos sintéticos de miles de personas en la cabina del automóvil en diversas situaciones y entornos para determinar la ubicación óptima de la cámara y la configuración general para garantizar el mejor rendimiento”.

Uno de los avatares digitales de Synthesis AI. Créditos de imagen: IA de síntesis

Vale la pena señalar que algunos de los dominios que respalda Synthesis son controvertidos, como el reconocimiento facial y la “detección de emociones”. Los sesgos raciales y de género son un fenómeno bien documentado en el análisis facial, atribuible a deficiencias en los conjuntos de datos utilizados para entrenar los algoritmos. (En términos generales, un algoritmo que se desarrolla utilizando imágenes de personas con estructuras faciales y colores homogéneos tendrá un peor rendimiento en los “tipos de cara” a los que no ha estado expuesto). investigar destaca las consecuencias, mostrando que algunos sistemas de producción clasifican las emociones expresadas por las personas negras como más negativas. Herramientas impulsadas por visión artificial como Zoom fondos virtuales y el recorte automático de fotos de Twitter también han desfavorecido históricamente a las personas con piel más oscura.

Pero Behzadi tiene la creencia optimista de que Synthesis puede reducir estos sesgos al generar ejemplos de datos, por ejemplo, caras diversas, que de otro modo no se recopilarían. También afirma que los datos sintéticos de Synthesis confieren ventajas de privacidad y uso justo, principalmente porque no están vinculados a información de identificación personal (aunque algunos investigar no está de acuerdo) y no tiene derechos de autor (a diferencia de muchas de las imágenes en la web pública).

“Además de crear modelos más capaces, Synthesis se centra en el desarrollo ético de la IA mediante la reducción de sesgos, la preservación de la privacidad y la democratización del acceso… [The platform] proporciona datos perfectamente etiquetados bajo demanda en órdenes de magnitud mayor velocidad y menor costo en comparación con los enfoques de etiquetado humano en el circuito”, dijo Behzadi. “La IA está impulsada por datos etiquetados de alta calidad. A medida que el espacio de la IA cambia de una IA centrada en el modelo a una centrada en los datos, los datos se convierten en la fuerza impulsora competitiva clave”.

De hecho, los datos sintéticos, dependiendo de cómo se apliquen, tienen el potencial de abordar muchos de los desafíos de desarrollo que afectan a las empresas que intentan poner en funcionamiento la IA. Hace poco, los investigadores del MIT encontraron una forma de clasificar las imágenes utilizando datos sintéticos. Los investigadores de Nvidia han explorado una forma de utilizar datos sintéticos creados en entornos virtuales para entrenar robots para recoger objetos. Y casi todas las principales empresas de vehículos autónomos utilizan datos de simulación para complementar los datos del mundo real que recopilan de los automóviles en la carretera.

Pero, de nuevo, no todos los datos sintéticos son iguales. Los conjuntos de datos deben transformarse para que los sistemas que crean datos sintéticos puedan utilizarlos, y las suposiciones realizadas durante las transformaciones pueden conducir a resultados no deseados. UNA ESTADÍSTICA reporte descubrió que Watson Health, la asediada división de ciencias de la vida de IBM, a menudo brindaba consejos deficientes e inseguros sobre el tratamiento del cáncer porque los modelos de la plataforma se entrenaron utilizando registros de pacientes sintéticos y erróneos en lugar de datos reales. Y en un enero de 2020 estudioinvestigadores de la Universidad Estatal de Arizona demostraron que un sistema de inteligencia artificial entrenado en un conjunto de datos de imágenes de profesores podía crear rostros sintéticos muy realistas, pero rostros sintéticos que eran en su mayoría hombres y blancos, porque amplificaba los sesgos contenidos en el conjunto de datos original.

Matthew Guzdial, profesor asistente de informática en la Universidad de Alberta, señala que el propio libro blanco de Synthesis reconoce que entrenar un modelo solo con datos sintéticos generalmente hace que funcione peor.

“No veo nada que realmente se destaque aquí [with Synthesis’ platform]. Es bastante estándar, en cuanto a datos sintéticos. En algunos casos, pueden usar datos sintéticos en combinación con datos reales para ayudar a que un modelo se generalice de manera útil”, dijo a TechCrunch por correo electrónico. “[G]En general, evito que mis alumnos usen datos sintéticos, ya que encuentro que es demasiado fácil introducir sesgos que en realidad empeoran el modelo final… Dado que los datos sintéticos se generan de alguna manera algorítmica (por ejemplo, con una función), lo más fácil para un modelo para aprender es simplemente replicar el comportamiento de esa función, en lugar del problema real que está tratando de aproximar”.

Créditos de imagen: IA de síntesis

Robin Röhm, cofundador de la plataforma de análisis de datos Apheris, argumenta que se deben desarrollar controles de calidad para cada nuevo conjunto de datos sintéticos para evitar el uso indebido. La parte que genera y valida el conjunto de datos debe tener conocimiento específico sobre cómo se aplicarán los datos, dice, o corre el riesgo de crear un sistema inexacto y posiblemente dañino.

Behzadi está de acuerdo en principio, pero con miras a expandir la cantidad de aplicaciones que admite Synthesis, superando a rivales como Mostly AI, Rendered.ai, YData, Datagen y Synthetaic. Con más de $ 24 millones en financiamiento y clientes de Fortune 50 en los espacios de consumo, metaverso y robótica, Synthesis planea lanzar nuevos productos dirigidos a verticales nuevos y existentes que incluyen mejora de fotografías, teleconferencias, hogares inteligentes y asistentes inteligentes.

“Con una amplitud y profundidad inigualables de datos humanos representativos, Synthesis AI se ha establecido como el proveedor de referencia para datos sintéticos de nivel de producción… La empresa ha entregado más de 10 millones de imágenes etiquetadas para apoyar a las empresas de visión artificial más avanzadas del mundo. ”, dijo Behzadi. “Synthesis AI tiene 20 empleados y escalará a 50 para fin de año”.

Source link