Este es el comienzo de la era de la base de datos desagregada

Ethan Batraski Colaborador

Ethan Batraski es socio en Venrock y se enfoca en infraestructura de datos, código abierto y herramientas para desarrolladores.

Más publicaciones de este colaborador Ocho tendencias que aceleran la era de la computación cuántica comercial 4 tendencias de desarrolladores empresariales que darán forma a 2021

Gracias a la nube, la cantidad de datos que se generan y almacenan se ha disparado en escala y volumen.

Cada aspecto de la empresa está siendo instrumentado para los datos, por lo que se construyen nuevas operaciones basadas en esos datos, lo que empuja a cada empresa a convertirse en una empresa de datos.

Uno de los cambios más profundos y quizás no obvios que impulsan esto es el surgimiento de la base de datos en la nube. Servicios como Amazon S3, Google BigQuery, Snowflake y Databricks han resuelto la informática en grandes volúmenes de datos y han facilitado el almacenamiento de datos de todas las fuentes disponibles.

La empresa quiere almacenar todo lo que pueda con la esperanza de poder ofrecer experiencias de cliente mejoradas y nuevas capacidades de mercado.

Es un buen momento para ser una empresa de bases de datos.

Las empresas de bases de datos han recaudado más de 8700 millones de dólares en los últimos 10 años, con casi la mitad de eso, 4100 millones de dólares, solo en los últimos 24 meses, según CB Insights.

No es sorprendente dadas las altísimas valoraciones de Snowflake y Databricks. El mercado se duplicó en los últimos cuatro años a casi $ 90 mil millones y se espera que se duplique nuevamente en los próximos cuatro años. Es seguro decir que hay una gran oportunidad para seguir.

Vea aquí una lista sólida de financiamientos de bases de datos en 2021.

El crecimiento de la base de datos está impulsando el gasto en la empresa. Créditos de imagen: Venrock

Hace 20 años, tenía una opción: una base de datos relacional

Hoy, gracias a la nube, los microservicios, las aplicaciones distribuidas, la escala global, los datos en tiempo real y el aprendizaje profundo, han surgido nuevas arquitecturas de bases de datos para resolver los nuevos requisitos de rendimiento.

Ahora tenemos diferentes sistemas para lecturas rápidas y escrituras rápidas. También hay sistemas específicamente para impulsar análisis ad-hoc o para datos no estructurados, semiestructurados, transaccionales, relacionales, gráficos o series de tiempo, así como para datos utilizados para caché, búsqueda, basados en índices, eventos y más. .

Puede ser una sorpresa, pero todavía hay miles de millones de dólares en instancias de Oracle que aún alimentan aplicaciones críticas en la actualidad, y es probable que no vayan a ninguna parte.

Cada sistema viene con diferentes necesidades de rendimiento, que incluyen alta disponibilidad, escala horizontal, consistencia distribuida, protección contra fallas, tolerancia a la partición y ser sin servidor y completamente administrado.

Como resultado, las empresas, en promedio, almacenan datos en siete o más bases de datos diferentes. Por ejemplo, puede tener Snowflake como su almacén de datos, Clickhouse para análisis ad-hoc, Timescale para datos de series temporales, Elastic para sus datos de búsqueda, S3 para registros, Postgres para transacciones, Redis para almacenamiento en caché o datos de aplicaciones, Cassandra para datos complejos. cargas de trabajo y Dgraph* para datos de relación o esquemas dinámicos.

Todo eso suponiendo que esté ubicado en una sola nube y haya creado una pila de datos moderna desde cero.

El nivel de rendimiento y garantías de estos servicios y plataformas está en un nivel muy diferente en comparación con el que teníamos hace cinco o diez años. Al mismo tiempo, la proliferación y fragmentación de la capa de la base de datos genera cada vez más nuevos desafíos.

Por ejemplo, la sincronización entre diferentes esquemas y sistemas, la escritura de nuevos trabajos de ETL para unir las cargas de trabajo entre varias bases de datos, los problemas constantes de comunicación cruzada y conectividad, la sobrecarga de administrar la agrupación en clústeres activo-activo en tantos sistemas diferentes o las transferencias de datos cuando se crean nuevos clústeres o los sistemas se ponen en línea. Cada uno de estos tiene diferentes requisitos de escala, ramificación, propagación, fragmentación y recursos.

Además, ahora tenemos nuevas bases de datos cada mes que tienen como objetivo resolver el próximo desafío de escala empresarial.

La base de datos de la nueva era

Entonces la pregunta es, ¿seguirá definiéndose el futuro de la base de datos como lo es hoy?

Source link