Un grupo de ex ingenieros de la NSA y Amazon está construyendo un “GitHub para datos”

Hace seis meses o más o menos, un grupo de ingenieros y desarrolladores con antecedentes de la Agencia de Seguridad Nacional, Google y Amazon Web Services tuvieron una idea.

Los datos son valiosos para ayudar a los desarrolladores e ingenieros a construir nuevas funciones e innovar mejor. Pero esos datos a menudo son muy confidenciales y están fuera del alcance, guardados bajo llave y con burocracia y cumplimiento, lo que puede tomar semanas para obtener la aprobación. Entonces, los ingenieros comenzaron Gretel, una startup en etapa temprana que tiene como objetivo ayudar a los desarrolladores a compartir y colaborar de manera segura con datos confidenciales en tiempo real.

Alex Watson, uno de los cofundadores, no es tan problemático como podría pensarse. Los desarrolladores pueden enfrentar este problema en cualquier empresa, dijo. A menudo, los desarrolladores no necesitan acceso completo a un banco de datos de usuarios, solo necesitan una porción o una muestra para trabajar. En muchos casos, los desarrolladores podrían bastar con datos que parecen datos de usuarios reales.

“Comienza haciendo que los datos sean seguros para compartir”, dijo Watson. “Existen todos estos casos de uso realmente geniales que las personas han podido hacer con los datos”. Dijo que compañías como GitHub, una plataforma de intercambio de código fuente ampliamente utilizada, ayudaron a hacer que el código fuente fuera accesible y la colaboración sea fácil. “Pero no hay un equivalente de GitHub para los datos”, dijo.

Y así es como Watson y sus cofundadores, John Myers, Ali Golshan y Laszlo Bock idearon Gretel.

“Estamos construyendo en este momento un software que permite a los desarrolladores verificar automáticamente una versión anónima del conjunto de datos”, dijo Watson. Estos llamados “datos sintéticos” son esencialmente datos artificiales que se ven y funcionan igual que los datos confidenciales del usuario. Gretel utiliza el aprendizaje automático para clasificar los datos, como nombres, direcciones y otros identificadores de clientes, y clasificar tantas etiquetas como sea posible. Una vez que los datos están etiquetados, se pueden aplicar políticas de acceso. Luego, la plataforma aplica privacidad diferencial, una técnica utilizada para anonimizar grandes cantidades de datos, de modo que ya no esté vinculada a la información del cliente. “Es un conjunto de datos completamente falso que fue generado por el aprendizaje automático”, dijo Watson.

Es un lanzamiento que ya está llamando la atención. La startup ha recaudado $ 3.5 millones en fondos iniciales para despegar la plataforma, liderada por Greylock Partners, y con la participación de Moonshots Capital, Village Global y varios inversores ángeles.

“En Google, tuvimos que crear nuestras propias herramientas para que nuestros desarrolladores pudieran acceder a los datos de manera segura, porque las herramientas que necesitábamos no existían”, dijo Sridhar Ramaswamy, ex ejecutivo de Google y ahora socio de Greylock.

Gretel dijo que cobrará a los clientes en función del consumo, una estructura similar a la forma en que Amazon fija el acceso a sus servicios de computación en la nube.

“En este momento, es muy descarado y de construcción”, dijo Watson. La startup planea aumentar su compromiso con la comunidad de desarrolladores en las próximas semanas, con el objetivo de hacer que Gretel esté disponible en los próximos seis meses, dijo.

Source link