Como ya sabrá, hay una gran cantidad de datos disponibles, y algunos de ellos podrían ser bastante útiles. Pero las consideraciones de privacidad y seguridad a menudo imponen limitaciones estrictas sobre cómo se puede usar o analizar. Flotas de datos promete un nuevo enfoque mediante el cual se puede acceder y analizar las bases de datos de manera segura sin la posibilidad de violaciones o abusos de la privacidad, y ha recaudado una ronda inicial de $ 4.5 millones para ampliarlo.
Para trabajar con datos, debe tener acceso a ellos. Si eres un banco, eso significa transacciones y cuentas; si es minorista, eso significa inventarios y cadenas de suministro, etc. Hay muchos conocimientos y patrones procesables enterrados en todos esos datos, y es el trabajo de los científicos de datos y de su tipo extraerlos.
Pero, ¿qué sucede si no puede acceder a los datos? Después de todo, hay muchas industrias en las que no se recomienda o incluso es ilegal hacerlo, como en el cuidado de la salud. No se puede exactamente tomar los registros médicos de todo un hospital, dárselos a una empresa de análisis de datos y decir “examinar eso y decirme si hay algo bueno”. Estos, como muchos otros conjuntos de datos, son demasiado privados o confidenciales para permitir que cualquier persona tenga acceso sin restricciones. El más mínimo error, y mucho menos el abuso, podría tener graves repercusiones.
Sin embargo, en los últimos años han surgido algunas tecnologías que permiten algo mejor: analizar datos sin exponerlos realmente. Suena imposible, pero existen técnicas computacionales para permitir que los datos sean manipulados sin que el usuario tenga acceso a ninguno de ellos. El más utilizado se llama cifrado homomórfico, que desafortunadamente produce una enorme reducción de órdenes de magnitud en la eficiencia, y el big data tiene que ver con la eficiencia.
Aquí es donde interviene DataFleets. No ha reinventado el cifrado homomórfico, sino que lo ha esquivado. Utiliza un enfoque llamado aprendizaje federado, donde en lugar de llevar los datos al modelo, llevan el modelo a los datos.
DataFleets se integra con ambos lados de una brecha segura entre una base de datos privada y las personas que desean acceder a esos datos, actuando como un agente confiable para transportar información entre ellos sin revelar ni un solo byte de datos reales sin procesar.
Créditos de imagen: Flotas de datos
Aquí hay un ejemplo. Digamos que una compañía farmacéutica quiere desarrollar un modelo de aprendizaje automático que analice el historial de un paciente y prediga si tendrá efectos secundarios con un nuevo medicamento. La base de datos privada de datos de pacientes de un centro de investigación médica es perfecta para entrenarla. Pero el acceso está muy restringido.
El analista de la compañía farmacéutica crea un programa de capacitación de aprendizaje automático y lo coloca en DataFleets, que contrata tanto a ellos como a la instalación. DataFleets traduce el modelo a su propio tiempo de ejecución patentado y lo distribuye a los servidores donde residen los datos médicos; dentro de ese entorno de espacio aislado, se convierte en un agente de ML joven y robusto, que cuando termina se vuelve a traducir al formato o plataforma preferido del analista. El analista nunca ve los datos reales, pero tiene todos los beneficios de ello.
Captura de pantalla de la interfaz de DataFleets. Mire, son las aplicaciones las que están destinadas a ser emocionantes. Créditos de imagen: Flotas de datos
Es bastante simple, ¿verdad? DataFleets actúa como una especie de mensajero confiable entre las plataformas, realiza el análisis en nombre de otros y nunca retiene ni transfiere datos confidenciales.
Mucha gente está investigando el aprendizaje federado; la parte difícil es construir la infraestructura para un servicio de nivel empresarial de gran alcance. Necesita cubrir una gran cantidad de casos de uso y aceptar una enorme variedad de lenguajes, plataformas y técnicas y, por supuesto, hacerlo todo de forma totalmente segura.
“Nos enorgullecemos de la preparación empresarial, con gestión de políticas, gestión de acceso a la identidad y nuestra certificación SOC 2 pendiente”, dijo Nick Elledge, director de operaciones y cofundador de DataFleets. “Puede construir cualquier cosa sobre DataFleets y conectar sus propias herramientas, que los bancos y hospitales le dirán que no era cierto en el software de privacidad anterior”.
Pero una vez que se establece el aprendizaje federado, de repente los beneficios son enormes. Por ejemplo, uno de los grandes problemas actuales en la lucha contra el COVID-19 es que los hospitales, las autoridades sanitarias y otras organizaciones de todo el mundo tienen dificultades, a pesar de su voluntad, para compartir de forma segura los datos relacionados con el virus.
Todo el mundo quiere compartir, pero ¿quién envía a quién qué, dónde se guarda y bajo la autoridad y responsabilidad de quién? Con los métodos antiguos, es un lío confuso. Con el cifrado homomórfico es útil pero lento. Con el aprendizaje federado, en teoría, es tan fácil como alternar el acceso de alguien.
Debido a que los datos nunca salen de su “hogar”, este enfoque es esencialmente anónimo y, por lo tanto, cumple con regulaciones como HIPAA y GDPR, otra gran ventaja. Elledge señala: “Estamos siendo utilizados por las principales instituciones de atención médica que reconocen que HIPAA no les brinda suficiente protección cuando ponen un conjunto de datos a disposición de terceros”.
Por supuesto, hay ejemplos menos nobles, pero no menos viables, en otras industrias: los operadores inalámbricos podrían hacer que los metadatos de los suscriptores estén disponibles sin vender a las personas; los bancos podrían vender datos de consumidores sin violar la privacidad de nadie en particular; los conjuntos de datos voluminosos como el video pueden permanecer donde están en lugar de duplicarse y mantenerse a un gran costo.
La ronda semilla de $4.5 millones de la compañía aparentemente es evidencia de la confianza de una variedad de inversionistas (como lo resume Elledge): AME Cloud Ventures (Jerry Yang de Yahoo) y Morado Ventures, Lightspeed Venture Partners, Peterson Ventures, Mark Cuban, LG, Marty Chavez (presidente de la junta de supervisores de Harvard), el fondo Stanford-StartX y tres fundadores unicornio (Rappi, Quora y Lucid).
Con solo 11 empleados a tiempo completo, DataFleets parece estar haciendo mucho con muy poco, y la ronda inicial debería permitir una rápida ampliación y maduración de su producto estrella. “Tuvimos que rechazar o posponer la demanda de nuevos clientes para centrarnos en nuestro trabajo con nuestros clientes faro”, dijo Elledge. Estarán contratando ingenieros en los EE. UU. y Europa para ayudar a lanzar el producto de autoservicio planificado el próximo año.
“Estamos pasando de una economía de propiedad de datos a una economía de acceso a datos, donde la información puede ser útil sin transferir la propiedad”, dijo Elledge. Si la apuesta de su empresa da en el blanco, es probable que el aprendizaje federado sea una gran parte de eso en el futuro.
Source link