Cómo garantizar la calidad en la era del Big Data

Cómo garantizar la calidad de los datos en la era del big data

Patrik Liu Tran Colaborador

Patrik Liu Tran es cofundador y director ejecutivo de Válido, una plataforma automatizada de control de calidad y validación de datos en tiempo real. Tiene un doctorado. en Administración de Empresas (así como un M.Sc. y B.Sc.) de la Escuela de Economía de Estocolmo, y un título de Ingeniería Civil en Ingeniería Física con un M.Sc. en IA y aprendizaje automático del KTH Royal Institute of Technology. Patrik también es el presidente de Stockholm AI.

Ha pasado poco más de una década desde The Economist nos advirtió que pronto estaríamos ahogados en datos. La pila de datos moderna ha surgido como un chaleco salvavidas propuesto para esta avalancha de datos, encabezada por empresas emergentes de Silicon Valley como Snowflake, Databricks y Confluent.

Hoy en día, cualquier emprendedor puede registrarse en BigQuery o Snowflake y tener una solución de datos que puede escalar con su negocio en cuestión de horas. La aparición de soluciones de almacenamiento de datos baratas, flexibles y escalables fue en gran medida una respuesta a las necesidades cambiantes impulsadas por la explosión masiva de datos.

Actualmente, el mundo produce 2,5 trillones de bytes de datos al día (hay 18 ceros en un quintillón). La explosión de datos continúa en los rugientes años 20, tanto en términos de generación como de almacenamiento: la cantidad de datos almacenados es se espera que continúe duplicándose al menos cada cuatro años. Sin embargo, una parte integral de la infraestructura de datos moderna todavía carece de soluciones adecuadas para la era del big data y sus desafíos: monitoreo de la calidad y validación de datos.

Permítanme explicarles cómo llegamos aquí y los desafíos futuros para la calidad de los datos.

El dilema del valor frente al volumen de los macrodatos

En 2005, Tim O’Reilly publicó su innovador artículo “¿Qué es la Web 2.0?”, Que realmente inició la carrera de los grandes datos. El mismo año, Roger Mougalas de O’Reilly introdujo el término “big data” en su contexto moderno, refiriéndose a un gran conjunto de datos que es prácticamente imposible de administrar y procesar con herramientas de BI tradicionales.

En 2005, uno de los mayores desafíos con los datos era administrar grandes volúmenes, ya que las herramientas de infraestructura de datos eran costosas e inflexibles, y el mercado de la nube aún estaba en su infancia (AWS no se lanzó públicamente hasta 2006). El otro fue la velocidad: como Tristan Handy de Fishtown Analytics (la empresa detrás de dbt) notas, antes del lanzamiento de Redshift en 2012, la realización de análisis relativamente sencillos podría llevar mucho tiempo incluso con conjuntos de datos de tamaño mediano. Desde entonces, se ha creado un ecosistema completo de herramientas de datos para mitigar estos dos problemas.

La aparición de la pila de datos moderna (ejemplos de logotipos y categorías). Créditos de imagen: Válido

Escalar las bases de datos relacionales y los dispositivos de almacenamiento de datos solía ser un verdadero desafío. Hace solo 10 años, una empresa que quería comprender el comportamiento del cliente tenía que comprar y montar servidores antes de que sus ingenieros y científicos de datos pudieran trabajar en la generación de conocimientos. Los datos y su infraestructura circundante eran costosos, por lo que solo las empresas más grandes podían permitirse la ingestión y el almacenamiento de datos a gran escala.

El desafío que tenemos ante nosotros es asegurarnos de que los grandes volúmenes de big data tengan una calidad suficientemente alta antes de que se utilicen.

Luego vino un cambio (rojo). En octubre de 2012, AWS presentó la primera solución viable para el desafío de escala con Redshift: una base de datos de procesamiento masivo paralelo (MPP) nativa de la nube que cualquiera podría usar por el precio mensual de un par de zapatillas ($ 100), aproximadamente 1000 veces más barata. que la configuración anterior del “servidor local”. Con una caída de precios de esta magnitud, las compuertas se abrieron y todas las empresas, grandes o pequeñas, ahora podían almacenar y procesar cantidades masivas de datos y desbloquear nuevas oportunidades.

Como Jamin Ball de Altimeter Capital resume, Redshift fue un gran problema porque fue el primer almacén OLAP nativo de la nube y redujo el costo de poseer una base de datos OLAP en órdenes de magnitud. La velocidad de procesamiento de consultas analíticas también aumentó drásticamente. Y más tarde (Snowflake fue pionero en esto), separaron la informática y el almacenamiento, lo que, en términos demasiado simplificados, significaba que los clientes podían escalar sus recursos informáticos y de almacenamiento de forma independiente.

¿Qué significó todo esto? Una explosión de recopilación y almacenamiento de datos.


Source link