Narrador recauda $ 6.2 millones para un nuevo enfoque de modelado de datos que reemplaza el esquema en estrella

Snowflake se hizo público esta semana, y en una marca del ecosistema más amplio que está evolucionando en torno al almacenamiento de datos, una startup que ha construido un concepto completamente nuevo para modelar datos almacenados está anunciando financiación. Narrador, que utiliza un modelo de ordenación de 11 columnas en lugar de un esquema de estrella estándar para organizar los datos para el modelado y el análisis, ha obtenido una ronda de la Serie A de $ 6.2 millones, dinero que planea usar para ayudarlo a lanzar y construir usuarios para un versión de autoservicio de su producto.

La financiación está siendo liderada por Initialized Capital junto con la inversión continua de Flybridge Capital Partners e Y Combinator, donde la startup estaba en una cohorte de 2019, así como por nuevos inversores, incluido Paul Buchheit.

Narrative ha existido durante tres años, pero su primera fase se basó en proporcionar modelado y análisis directamente a las empresas como consultoría, ayudando a las empresas a reunir fuentes de datos estructuradas y dispares de marketing, CRM, mesas de soporte y bases de datos internas para trabajar como una unidad unificada. todo. Como consultores, utilizando una versión anterior de la herramienta que ahora está lanzando, el director ejecutivo de la empresa, Ahmed Elsamadisi, dijo que él y otros hicieron malabares con las consultas “para ocho grandes empresas sin ayuda”, mientras que otra sola persona realizó análisis profundos.

Una vez validado que funciona, la nueva versión de autoservicio tiene como objetivo brindar a los científicos y analistas de datos una forma simplificada de ordenar los datos de modo que las consultas, descritas como análisis procesables en un formato similar a una historia, o “Narrativas”, como las llama la empresa – se puede realizar a través de esos datos rápidamente (horas en lugar de semanas) y de manera consistente. (Puede ver una demostración de cómo funciona a continuación proporcionada por la jefa de datos de la compañía, Brittany Davis).

(Y el nuevo data-as-a-service también tiene un precio en niveles SaaS, con un nivel gratuito para los primeros 5 millones de filas de datos y una escala móvil de precios después de eso basada en filas de datos, números de usuarios y narrativas en utilizar.)

Elsamadisi, quien cofundó la startup con Matt Star, Cedric Dussud y Michael Nason, dijo que los analistas de datos han vivido durante mucho tiempo con los problemas con el modelado de esquemas en estrella (y por extensión, el formato relacionado del esquema de copos de nieve), que se pueden resumir como “capas de dependencias, falta de fuente de verdad, números que no coinciden y mantenimiento sin fin”, dijo.

“En esencia, cuando tiene muchas tablas creadas a partir de una gran cantidad de SQL complejo, termina con un castillo de naipes en crecimiento que requiere la necesidad de contratar constantemente a más personas para asegurarse de que no colapse”.

(Nosotros) Experiencia laboral

Fue mientras trabajaba como científico principal de datos en WeWork (sí, me dijo, tal vez no era en realidad una empresa de tecnología, pero tenía “la tecnología en su núcleo”) cuando tuvo un gran momento al darse cuenta de cómo reestructurar los datos. para sortear estos problemas.

Antes de eso, las cosas eran difíciles en el frente de los datos. WeWork tenía 700 tablas que su equipo administraba utilizando un enfoque de esquema en estrella, que cubría 85 sistemas y 13,000 objetos. Los datos incluirían información sobre la adquisición de edificios, los flujos de clientes a través de esos edificios, cómo cambiarían las cosas y los clientes podrían abandonar, con el marketing y la actividad en las redes sociales, y así sucesivamente, creciendo en línea con el imperio de rápida expansión de la empresa. Todo eso significó un lío al final de los datos.

“Los analistas de datos no podrían hacer su trabajo”, dijo. “Resulta que apenas pudimos responder preguntas básicas sobre las cifras de ventas. Nada coincidió y todo tomó demasiado tiempo “.

El equipo tenía 45 personas, pero aun así terminó teniendo que implementar una jerarquía para responder preguntas, ya que había muchas y no había suficiente tiempo para investigar y responderlas todas. “Y teníamos todas las herramientas de datos que había”, agregó. “Mi equipo odiaba todo lo que hacían”.

El modelo de columna de una sola tabla que usa Narrador, dijo, “se había teorizado” en el pasado, pero no se había descubierto.

La chispa, dijo, fue pensar en datos estructurados de la misma manera en que hacemos preguntas, donde, como él lo describió, cada pieza de datos se puede unir y luego también usar para responder múltiples preguntas.

“La principal diferencia es que estamos usando una tabla de series de tiempo para reemplazar todos sus modelos de datos”, explicó Elsamadisi. “Esta no es una idea nueva, pero siempre se consideró imposible. En resumen, abordamos el mismo problema que la mayoría de las empresas de datos para facilitar la obtención de los datos que desea, pero somos la única empresa que lo resuelve innovando en el enfoque de modelado de datos de nivel más bajo. Honestamente, es por eso que nuestra solución funciona tan bien. Reconstruimos la base de los datos en lugar de intentar mejorar una base defectuosa “.

Narrador llama a la tabla compuesta, que incluye todos sus datos reformateados para encajar en su estructura de 11 columnas, el flujo de actividad.

Elsamadisi dijo que usar Narrador por primera vez toma alrededor de 30 minutos y alrededor de un mes para aprender a usarlo a fondo. “Pero no volverá a SQL después de eso, es mucho más rápido”, agregó.

El mercado inicial de Narrator ha estado brindando servicios a otras empresas de tecnología, y específicamente a nuevas empresas, pero el plan es abrirlo a un conjunto mucho más amplio de verticales. Y en un movimiento que podría ayudar con eso, a más largo plazo, también planea abrir el código fuente de algunos de sus componentes centrales para que terceros puedan datos de productos en la parte superior del marco más rápidamente.

En cuanto a los competidores, dice que son esencialmente las herramientas que él y otros científicos de datos siempre han utilizado, aunque “vamos en contra de un enfoque de ‘mejores prácticas’ (esquema estrella), no una empresa”. Airflow, DBT, Looker’s LookML, Chartio’s Visual SQL, Tableau Prep son todas formas de crear y habilitar el uso de un esquema en estrella tradicional, agregó. “Somos similares a estas empresas, tratando de que sea lo más fácil y eficiente posible generar las tablas que necesita para BI, informes y análisis, pero esas empresas están limitadas por el enfoque de esquema en estrella tradicional”.

Hasta ahora la prueba ha estado en los datos. Narrador dice que las empresas promedian alrededor de 20 transformaciones (la unidad utilizada para responder preguntas) en comparación con cientos en un esquema en estrella, y que esas transformaciones promedian 22 líneas en comparación con más de 1000 líneas en el modelado tradicional. Para aquellos que aprenden a usarlo, el tiempo promedio para generar un informe o ejecutar algún análisis es de cuatro minutos, en comparación con las semanas en el modelado de datos tradicional.

“Narrator tiene el potencial de establecer un nuevo estándar en datos”, dijo Jen Wolf, COO de Initialized Capital y socia y nueva miembro de la junta de Narrator, en un comunicado. “Nos sorprendió ver la calidad y la velocidad con la que Narrator entregó los análisis utilizando su producto. Estamos seguros de que una vez que el mundo experimente el Narrador, así será como se enseñará el análisis de datos en el futuro “.

Source link