Las fuentes abiertas de Databricks Delta Lake hacen que los lagos de datos sean más confiables

Las fuentes abiertas de Databricks Delta Lake hacen que los lagos de datos sean más confiables

Databricks, la compañía fundada por los desarrolladores originales del motor de análisis de big data Apache Spark, anunció hoy que cuenta con Delta Lake de fuente abierta, una capa de almacenamiento que facilita la integridad de los datos a medida que nuevos datos fluyen hacia el lago de datos de una empresa. trayendo transacciones ACID a estos vastos repositorios de datos.

Delta Lake, que durante mucho tiempo ha sido una parte propietaria de la oferta de Databrick, ya está en uso de producción por compañías como Viacom, Edmunds, Riot Games y McGraw Hill.

La herramienta ofrece la capacidad de imponer esquemas específicos (que se pueden cambiar según sea necesario), para crear instantáneas e ingerir datos de transmisión o rellenar el lago como un trabajo por lotes. Delta Lake también usa el motor Spark para manejar los metadatos del lago de datos (que a menudo es un gran problema de datos). Con el tiempo, Databricks También planea agregar una pista de auditoría, entre otras cosas.

“Hoy en día, casi todas las empresas tienen un lago de datos del que intentan obtener información, pero los lagos de datos han demostrado carecer de la fiabilidad de los datos. Delta Lake ha eliminado estos desafíos para cientos de empresas. Al hacer de código abierto de Delta Lake, los desarrolladores podrán construir fácilmente lagos de datos confiables y convertirlos en "Delta Lakes", dijo Ali Ghodsi, cofundador y CEO de Databricks.

Lo que es importante tener en cuenta aquí es que Delta Lake se ejecuta sobre los lagos de datos existentes y es compatible con las API de Apache spark.

La compañía todavía está estudiando cómo se gobernará el proyecto en el futuro. "Todavía estamos explorando diferentes modelos de gobernanza de proyectos de código abierto, pero el modelo de GitHub es bien comprendido y presenta una buena compensación entre la capacidad de aceptar contribuciones y los gastos generales de gobernabilidad", dijo Ghodsi. “Una cosa que sabemos con certeza es que queremos fomentar una comunidad vibrante, ya que vemos esto como una pieza fundamental de la tecnología para aumentar la confiabilidad de los datos en lagos de datos. Por eso elegimos un modelo de licencia de código abierto permisivo: Apache License v2, la misma licencia que utiliza Apache Spark ".

Para invitar a esta comunidad, Databricks planea realizar contribuciones externas, al igual que el proyecto Spark.

"Queremos que la tecnología Delta Lake sea utilizada en todas partes en la nube y en la nube por pequeñas y grandes empresas", dijo Ghodsi. "Este enfoque es la forma más rápida de construir algo que puede convertirse en un estándar al hacer que la comunidad proporcione orientación y contribuya a los esfuerzos de desarrollo". Es también por eso que la compañía decidió en contra de las licencias de la Cláusula de los Comunes que algunas empresas de código abierto ahora usan para prevenir otros (y especialmente las nubes grandes) usan sus herramientas de código abierto en sus propias ofertas comerciales de SaaS. “Creemos que la licencia de la Cláusula de los Comunes es restrictiva y desalentará la adopción. Nuestro principal objetivo con Delta Lake es impulsar la adopción tanto en la empresa como en la nube ".


Source link