Databricks anunció hoy el lanzamiento de su nueva red de socios Data Ingestion y el lanzamiento de sus Databricks Servicio de ingesta. La idea aquí es facilitar que las empresas combinen los mejores almacenes de datos y lagos de datos en una sola plataforma, un concepto que a Databricks le gusta llamar “lakehouse”.
En el núcleo de la casa del lago de la compañía se encuentra Delta Lake, el proyecto de código abierto administrado por Databricks Linux Foundation que brinda una nueva capa de almacenamiento a los lagos de datos que ayuda a los usuarios a administrar el ciclo de vida de sus datos y garantiza la calidad de los datos a través de la aplicación de esquemas, registros de registros y más. Los usuarios de Databricks ahora pueden trabajar con los primeros cinco socios de la red de ingestión: Fivetran, Qlik, Infoworks, StreamSets, Syncsort, para cargar automáticamente sus datos en Delta Lake. Para ingerir datos de estos socios, los clientes de Databricks no tienen que configurar ningún desencadenante o programación; en cambio, los datos fluyen automáticamente a Delta Lake.
“Hasta ahora, las empresas se han visto obligadas a dividir sus datos en datos estructurados tradicionales y big data, y usarlos por separado para casos de uso de BI y ML. Esto da como resultado datos aislados en lagos de datos y almacenes de datos, procesamiento lento y resultados parciales demasiado retrasados o demasiado incompletos para ser utilizados de manera efectiva “, dice Ali Ghodsi, cofundador y CEO de Databricks. “Este es uno de los muchos impulsores detrás del cambio a un paradigma de Lakehouse, que aspira a combinar la confiabilidad de los almacenes de datos con la escala de los lagos de datos para soportar todo tipo de casos de uso. Para que esta arquitectura funcione bien, es necesario que sea fácil ingresar todo tipo de datos. La ingestión de Databricks es un paso importante para que esto sea posible ”.
El vicepresidente de Databricks o marketing de productos, Bharath Gowda, también me dice que esto facilitará a las empresas realizar análisis de sus datos más recientes y, por lo tanto, responder mejor cuando llegue nueva información. También señaló que los usuarios podrán aprovechar mejor su estructura y datos no estructurados para construir mejores modelos de aprendizaje automático, así como para realizar análisis más tradicionales de todos sus datos en lugar de solo una pequeña porción que está disponible en su almacén de datos.
Source link