Parecía tan simple. Un pequeño problema de esquema en una base de datos estaba arruinando una característica de la aplicación, aumentando la latencia y degradando la experiencia del usuario. El ingeniero de datos residente presenta una solución para modificar el esquema y todo parece estar bien, por ahora. Sin que ellos lo supieran, esa pequeña solución destruyó por completo todos los paneles utilizados por el liderazgo de la empresa. Las finanzas están caídas, las operaciones están enojadas y el director ejecutivo, bueno, ni siquiera saben si la empresa está en línea.
Para los ingenieros de datos, no es solo una pesadilla recurrente, es una realidad cotidiana. Más de una década después de toda esa tontería de “los datos son el nuevo petróleo”, y todavía estamos administrando datos poco a poco y sin los sistemas y controles adecuados. Los lagos de datos se han convertido en océanos de datos y los almacenes de datos se han convertido en… bueno, como se llame la versión masiva de un almacén (supongo que una mansión de almacenamiento). Los ingenieros de datos cierran la brecha entre el desordenado mundo de la vida real y la naturaleza precisa del código, y necesitan herramientas mucho mejores para hacer su trabajo.
Como ingeniero de datos no oficial de TechCrunch, he luchado personalmente con muchos de estos mismos problemas. Y eso es lo que me atrajo a pliegue de datos.
Datafold es una nueva plataforma para gestionar el control de calidad de los datos. Al igual que una plataforma de software tiene herramientas de control de calidad e integración continua para garantizar que el código funcione como se espera, Datafold se integra en todas las fuentes de datos para garantizar que los cambios en el esquema de una tabla no eliminen la funcionalidad en otro lugar.
El fundador Gleb Mezhanskiy conoce estos problemas de primera mano. Tiene información de su tiempo en Lyft, donde fue científico de datos e ingeniero de datos, y luego se transformó en gerente de producto “centrado en la productividad de los profesionales de datos”. La idea era que a medida que Lyft se expandía, necesitaba mejores canalizaciones y herramientas en torno a sus datos para seguir siendo competitivo con Uber y otros en su espacio.
Sus lecciones de Lyft informan el enfoque actual de Datafold. Mezhanskiy explicó que la plataforma se encuentra en las conexiones entre todas las fuentes de datos y sus puntos de venta. Hay dos desafíos que resolver aquí. Primero, “los datos están cambiando, todos los días obtienes nuevos datos, y su forma puede ser muy diferente, ya sea por razones comerciales o porque tus fuentes de datos pueden estar rotas”. Y en segundo lugar, “el código antiguo que utilizan las empresas para transformar estos datos también está cambiando muy rápidamente porque las empresas están creando nuevos productos, están refactorizando sus características… pueden ocurrir muchos errores”.
En forma de ecuación: realidad desordenada + caos en la ingeniería de datos = usuarios finales de datos descontentos.
Con Datafold, los cambios realizados por los ingenieros de datos en sus extracciones y transformaciones se pueden comparar en busca de cambios no intencionales. Por ejemplo, tal vez una función que anteriormente devolvía un número entero ahora devuelve una cadena de texto, un error accidental introducido por el ingeniero. En lugar de esperar hasta que las herramientas de BI fracasen y lleguen un montón de alertas de los gerentes, Datafold indicará que es probable que haya algún tipo de problema e identificará lo que sucedió.
La eficiencia clave aquí es que Datafold agrega cambios en conjuntos de datos, incluso conjuntos de datos con miles de millones de entradas, en resúmenes para que los ingenieros de datos puedan comprender incluso fallas sutiles. El objetivo es que incluso si se produce un error en el 0,1 % de los casos, Datafold podrá identificar ese problema y también traer un resumen al ingeniero de datos para que responda.
Datafold está ingresando a un mercado que es, francamente, tan caótico como los datos que se procesan. Se encuentra en la capa intermedia clave de la pila de datos: no es el lago de datos o el almacén de datos para almacenar datos, y no son las herramientas de BI del usuario final como Looker, Tableau o muchas otras. En cambio, es parte de una serie de herramientas disponibles para que los ingenieros de datos administren y monitoreen sus flujos de datos para garantizar la coherencia y la calidad.
La puesta en marcha se dirige a empresas con al menos 20 personas en su equipo de datos: ese es el punto óptimo donde un equipo de datos tiene suficiente escala y recursos para preocuparse por la calidad de los datos.
Hoy, Datafold son tres personas y debutarán oficialmente en el Demo Day de YC a finales de este mes. Su último sueño es un mundo en el que los ingenieros de datos nunca más tengan que obtener una página de la noche a la mañana para solucionar un problema de calidad de los datos. Si ha estado allí, sabe exactamente por qué un producto de este tipo es valioso.
Source link