Tradicionalmente, un lago de datos era un lugar para almacenar datos amorfos no estructurados, mientras que un almacén de datos era donde colocabas datos muy estructurados, como la información de la tarjeta de crédito. Eso comenzó a cambiar en los últimos años cuando las empresas vieron la necesidad de fusionar los dos conceptos y la idea de la casa del lago, que combina el poder del lago de datos con el poder computacional del almacén de datos, comenzó a tomar forma.
Vinoth Chandar, fundador y director general de Una casaTrabajaba en Uber en 2014. La empresa estaba creciendo rápidamente y tenía un problema grave de datos. Tenía una gran cantidad de datos no estructurados en un lago de datos, pero el desafío era encontrar una manera de ejecutar esos datos más rápidamente, algo que se podía hacer con un almacén de datos, pero que era más difícil en un lago de datos debido a su falta de estructura. naturaleza.
Parte del problema era solo la gran escala de los datos de Uber, lo que dificultaba, si no imposibilitaba, cambiar el uso de la tecnología de lago de datos que estaba disponible en ese momento. “Si quería datos rápidos, usaba la pila de procesamiento de flujo [like Kafka and Confluent], ¿derecho? Y los lagos de datos le permiten escalar a grandes cantidades de datos”, dijo. Pero luego estabas limitado por el tamaño de los datos.
En 2016, se le ocurrió la idea de combinar los dos conceptos para darle escala y velocidad. “Así que esta idea era bastante descabellada, en el sentido de que aportó una gran cantidad de estructura tecnológica de base de datos por encima de los lagos de datos”, dijo. Creó una herramienta para hacer esto llamada Hudique Uber donó a Apache Software Foundation como un proyecto de código abierto al año siguiente.
El proyecto comenzó a llamar la atención y las empresas que necesitaban este tipo de capacidad de procesamiento además de sus lagos de datos comenzaron a hacer fila. Eso incluye algunos nombres bastante importantes como Amazon, Walmart, GE Aviation, Robinhood y TikTok. Chandar dijo que estas empresas están construyendo lagos de datos masivos a escala de exabytes con Hudi.
Incluso después de que Chandar dejó Uber y trabajó brevemente en Confluent, siguió siendo presidente del proyecto Hudi y comenzó a pensar en construir una empresa basada en el proyecto de código abierto. Lanzó Onehouse a principios del año pasado y recaudó $8 millones de Greylock y Addition para comenzar a construir la versión administrada del software.
Como suele ser el caso con las empresas basadas en modelos de código abierto, algunas empresas más grandes pueden tener los recursos de ingeniería para instalar y ejecutar el proyecto de código abierto por sí solas, pero muchas empresas necesitan ayuda. Una versión administrada elimina gran parte de la complejidad y los dolores de cabeza asociados con la administración de todo el proyecto solo.
La startup tiene 15 empleados con planes de duplicar ese número este año. Chandar dijo que busca construir una empresa diversa, e incluso el nombre se seleccionó con eso en mente: una empresa donde todos son bienvenidos.
“Queremos asegurarnos de que todos en la empresa tengan un asiento en la mesa. Y a uno de nuestros ingenieros se le ocurrió el nombre Onehouse, y lo tomamos [to show] que queremos crear un lugar muy diverso e inclusivo aquí. Y actualmente tenemos tres etnias autoidentificadas diferentes dentro de la empresa, y creemos que el anuncio también nos ayudará a llegar más allá de nuestras redes y ayudar a traer más diversidad”.
La empresa tiene previsto utilizar el capital semilla inicial para seguir haciendo crecer la empresa, desarrollar el producto gestionado y seguir contribuyendo al proyecto de código abierto de Hudi.
Source link