El principio de Pareto, también conocido como la regla 80-20, afirma que el 80% de las consecuencias provienen del 20% de las causas, lo que hace que el resto sea menos impactante.
Aquellos que trabajan con datos pueden haber escuchado una interpretación diferente de la regla 80-20: un científico de datos pasa el 80% de su tiempo en el trabajo limpiando datos desordenados en lugar de hacer análisis reales o generar información. Imagínese un viaje de 30 minutos ampliado a dos horas y media por los atascos de tráfico, y obtendrá la imagen.
Por muy tentador que sea pensar en un futuro en el que haya un modelo de aprendizaje automático para cada proceso empresarial, no es necesario que vayamos tan lejos en este momento.
Si bien la mayoría de los científicos de datos pasan más del 20% de su tiempo trabajando en análisis reales, todavía tienen que perder incontables horas convirtiendo un tesoro de datos desordenados en un conjunto de datos ordenado listo para el análisis. Este proceso puede incluir eliminar datos duplicados, asegurarse de que todas las entradas tengan el formato correcto y realizar otros trabajos preparatorios.
En promedio, esta etapa del flujo de trabajo ocupa aproximadamente el 45% del tiempo total, según una encuesta reciente de Anaconda. Una encuesta anterior de CrowdFlower situó la estimación en 60%, y muchas otras encuestas citan cifras en este rango.
Nada de esto quiere decir que la preparación de datos no sea importante. “La basura entra, sale la basura” es una regla bien conocida en los círculos de la informática y también se aplica a la ciencia de datos. En el mejor de los casos, la secuencia de comandos simplemente devolverá un error, advirtiendo que no puede calcular el gasto promedio por cliente, porque la entrada para el cliente # 1527 está formateada como texto, no como un número. En el peor de los casos, la empresa actuará sobre la base de conocimientos que tienen poco que ver con la realidad.
La pregunta real que debe hacerse aquí es si volver a formatear los datos para el cliente n. ° 1527 es realmente la mejor manera de aprovechar el tiempo de un experto bien pagado. Al científico de datos promedio se le paga entre $ 95,000 y $ 120,000 por año, según varias estimaciones. Hacer que el empleado con esa paga se concentre en tareas aturdidoras y no expertas es una pérdida tanto de su tiempo como del dinero de la empresa. Además, los datos del mundo real tienen una vida útil, y si un conjunto de datos para un proyecto urgente tarda demasiado en recopilarse y procesarse, puede estar desactualizado antes de realizar cualquier análisis.
Es más, las búsquedas de datos de las empresas a menudo incluyen perder el tiempo del personal que no se centra en los datos, y se pide a los empleados que ayuden a obtener o producir datos en lugar de trabajar en sus responsabilidades habituales. Más de la mitad de los datos recopilados por las empresas a menudo no se utilizan en absoluto, lo que sugiere que el tiempo de todos los involucrados en la recopilación se ha desperdiciado para producir nada más que retrasos operativos y las pérdidas asociadas.
Los datos que se han recopilado, por otro lado, a menudo solo son utilizados por un equipo de ciencia de datos designado que tiene demasiado trabajo para revisar todo lo que está disponible.
Todo para datos y datos para todos
Todos los problemas descritos aquí influyen en el hecho de que, salvo para los pioneros de los datos como Google y Facebook, las empresas todavía están pensando en cómo volver a imaginarse a sí mismas para la era impulsada por los datos. Los datos se introducen en enormes bases de datos y los científicos de datos se quedan con una gran cantidad de limpieza por hacer, mientras que otros, cuyo tiempo se desperdició en ayudar a buscar los datos, no se benefician con demasiada frecuencia.
La verdad es que todavía estamos en una etapa temprana en lo que respecta a la transformación de datos. El éxito de los gigantes tecnológicos que colocan los datos en el centro de sus modelos de negocio desencadenó una chispa que apenas está comenzando a despegar. Y aunque los resultados son mixtos por ahora, esta es una señal de que las empresas aún tienen que dominar el pensamiento con datos.
Los datos tienen mucho valor y las empresas son muy conscientes de ello, como lo demuestra el apetito por los expertos en inteligencia artificial en las empresas no tecnológicas. Las empresas simplemente tienen que hacerlo bien, y una de las tareas clave a este respecto es comenzar a enfocarse en las personas tanto como nosotros en las IA.
Los datos pueden mejorar las operaciones de prácticamente cualquier componente dentro de la estructura organizativa de cualquier empresa. Por muy tentador que sea pensar en un futuro en el que haya un modelo de aprendizaje automático para cada proceso empresarial, no es necesario que vayamos tan lejos en este momento. El objetivo de cualquier empresa que busque aprovechar datos en la actualidad se reduce a llevarlos del punto A al punto B. El punto A es la parte del flujo de trabajo donde se recopilan los datos y el punto B es la persona que necesita estos datos para la toma de decisiones. .
Es importante destacar que el punto B no tiene por qué ser un científico de datos. Podría ser un gerente que intenta descubrir el diseño de flujo de trabajo óptimo, un ingeniero que busca fallas en un proceso de fabricación o un diseñador de interfaz de usuario que realiza pruebas A / B en una función específica. Todas estas personas deben tener los datos que necesitan a mano todo el tiempo, listos para ser procesados para obtener información.
Las personas pueden prosperar con los datos tan bien como con los modelos, especialmente si la empresa invierte en ellos y se asegura de equiparlos con habilidades básicas de análisis. En este enfoque, la accesibilidad debe ser el nombre del juego.
Los escépticos pueden afirmar que los macrodatos no son más que una palabra de moda corporativa sobreutilizada, pero las capacidades analíticas avanzadas pueden mejorar los resultados de cualquier empresa siempre que cuenten con un plan claro y expectativas adecuadas. El primer paso es concentrarse en hacer que los datos sean accesibles y fáciles de usar y no en transportar tantos datos como sea posible.
En otras palabras, una cultura de datos integral es tan importante para una empresa como la infraestructura de datos.
Source link