Parecía tan simple. Un pequeño problema de esquema en una base de datos fue destruir una característica de la aplicación, aumentando la latencia y degradando la experiencia del usuario. El ingeniero de datos residente presenta una solución para modificar el esquema, y todo parece estar bien, por ahora. Sin que ellos lo supieran, esa pequeña solución golpeó por completo todos los paneles utilizados por el liderazgo de la compañía. Las finanzas están caídas, las operaciones están enojadas y el CEO, bueno, ni siquiera saben si la compañía está en línea.
Para los ingenieros de datos, no es solo una pesadilla recurrente, es una realidad cotidiana. Más de una década en toda esa trampa de “los datos son el nuevo petróleo”, y todavía estamos administrando los datos por partes y sin los sistemas y controles adecuados. Los lagos de datos se han convertido en océanos de datos y los almacenes de datos se han convertido … bueno, como se llame la versión masiva de un almacén (supongo que es un almacén). Los ingenieros de datos cierran la brecha entre el mundo desordenado de la vida real y la naturaleza precisa del código, y necesitan herramientas mucho mejores para hacer su trabajo.
Como ingeniero de datos no oficial de TechCrunch, personalmente he luchado con muchos de estos mismos problemas. Y eso es lo que me atrajo a Datafold.
Datafold es una plataforma completamente nueva para administrar la garantía de calidad de los datos. De la misma manera que una plataforma de software tiene un control de calidad y herramientas de integración continua para garantizar que el código funcione como se espera, Datafold se integra a través de las fuentes de datos para garantizar que los cambios en el esquema de una tabla no eliminen la funcionalidad en otro lugar.
El fundador Gleb Mezhanskiy conoce estos problemas de primera mano. Fue informado de su tiempo en Lyft, donde fue científico de datos e ingeniero de datos, y luego se transformó en gerente de producto “centrado en la productividad de los profesionales de datos”. La idea era que a medida que Lyft se expandía, necesitaba tuberías y herramientas mucho mejores en torno a sus datos para seguir siendo competitivos con Uber y otros en su espacio.
Sus lecciones de Lyft informan el enfoque actual de Datafold. Mezhanskiy explicó que la plataforma se encuentra en las conexiones entre todas las fuentes de datos y sus salidas. Hay dos desafíos para resolver aquí. Primero, “los datos están cambiando, todos los días se obtienen nuevos datos, y su forma puede ser muy diferente, ya sea por razones comerciales o porque sus fuentes de datos pueden romperse”. Y segundo, “el antiguo código que usan las compañías para transformar estos datos también está cambiando muy rápidamente porque las compañías están construyendo nuevos productos, están refactorizando sus características … pueden ocurrir muchos errores”.
En forma de ecuación: realidad desordenada + caos en la ingeniería de datos = usuarios finales de datos descontentos.
Con Datafold, los cambios realizados por los ingenieros de datos en sus extracciones y transformaciones se pueden comparar para cambios no intencionales. Por ejemplo, tal vez una función que anteriormente devolvía un número entero ahora devuelve una cadena de texto, un error accidental introducido por el ingeniero. En lugar de esperar hasta que las herramientas de BI fracasen y reciban un montón de alertas de los gerentes, Datafold indicará que probablemente haya algún tipo de problema e identificará lo que sucedió.
La eficiencia clave aquí es que Datafold agrega cambios en conjuntos de datos, incluso conjuntos de datos con miles de millones de entradas, en resúmenes para que los ingenieros de datos puedan comprender incluso defectos sutiles. El objetivo es que, incluso si se produce un error en el 0,1% de los casos, Datafold podrá identificar ese problema y también traer un resumen al ingeniero de datos para su respuesta.
Datafold está entrando en un mercado que, francamente, es tan caótico como los datos que se procesan. Se encuentra en la capa intermedia clave de la pila de datos: no es el lago de datos o el almacén de datos para almacenar datos, y no son las herramientas de BI del usuario final como un Looker, Tableau o muchos otros. En cambio, es parte de una serie de herramientas disponibles para que los ingenieros de datos administren y supervisen sus flujos de datos para garantizar la coherencia y la calidad.
La startup está dirigida a empresas con al menos 20 personas en su equipo de datos, ese es el punto óptimo donde un equipo de datos tiene suficiente escala y recursos para preocuparse por la calidad de los datos.
Hoy Datafold tiene tres personas y debutará oficialmente en el Día de demostración de YC a finales de este mes. Su último sueño es un mundo en el que los ingenieros de datos nunca más tengan que obtener una página nocturna para solucionar un problema de calidad de datos. Si ha estado allí, sabe exactamente por qué un producto de este tipo es valioso.
Source link