¿La automatización eliminará los puestos de ciencia de datos?

¿La automatización eliminará los puestos de ciencia de datos?

Tianhui Michael Li es fundador de La incubadora de datos, una beca de ocho semanas para ayudar a los doctores y posdoctorados en la transición de la academia a la industria. Anteriormente, dirigió la ciencia de datos de monetización en Foursquare y trabajó en Google, Andreessen Horowitz, JP Morgan y DE Shaw.

Más publicaciones de este colaborador Cómo contratar científicos de datos sin pagar mucho dinero ¿La automatización eliminará los puestos de ciencia de datos?

“¿La automatización eliminará los puestos de ciencia de datos?”

Esta es una pregunta que me hacen en casi todas las conferencias a las que asisto, y generalmente proviene de alguien de uno de dos grupos con un interés personal en la respuesta: el primero son los profesionales actuales o aspirantes que se preguntan sobre sus futuras perspectivas laborales. El segundo consiste en ejecutivos y gerentes que recién están comenzando su viaje por la ciencia de datos.

A menudo acaban de escuchar que Target puede determinar si un la clienta está embarazada por sus patrones de compra y esperan herramientas igualmente poderosas para sus datos. Y han escuchado el último discurso de un proveedor de inteligencia artificial automatizada que promete entregar lo que Target hizo (¡y más!) Sin científicos de datos. Argumentamos que la automatización y mejores herramientas de ciencia de datos no eliminarán ni reducirán las posiciones de ciencia de datos (incluidos los casos de uso como la historia de Target). ¡Crea más de ellos!

Este es el por qué.

Comprender el problema empresarial es el mayor desafío

La pregunta más importante en la ciencia de datos no es qué algoritmo de aprendizaje automático elegir o incluso cómo limpiar sus datos. Son las preguntas que debe hacer antes de escribir siquiera una línea de código: ¿Qué datos elige y qué preguntas elige hacer sobre esos datos?

Lo que falta (o se asume con ilusión) en la imaginación popular es el ingenio, la creatividad y la comprensión empresarial que conllevan esas tareas. ¿Por qué nos importa si nuestras clientas están embarazadas? Los científicos de datos de Target se habían basado en un trabajo sustancial anterior para comprender por qué se trataba de un cliente demográfico lucrativo preparado para cambiar de minorista. ¿Qué conjuntos de datos están disponibles y cómo podemos plantear preguntas científicamente comprobables de esos conjuntos de datos?

El equipo de ciencia de datos de Target tenía los datos del registro de bebés vinculados al historial de compras y sabía cómo vincular eso con el gasto de los clientes. ¿Cómo medimos el éxito? Formular requisitos no técnicos en preguntas técnicas que puedan responderse con datos es una de las tareas de ciencia de datos más desafiantes, y probablemente la más difícil de hacer bien. Sin humanos experimentados para formular estas preguntas, no podríamos ni siquiera comenzar el viaje de la ciencia de datos.

Haciendo sus suposiciones

Después de formular una pregunta sobre ciencia de datos, los científicos de datos deben describir sus suposiciones. Esto a menudo se manifiesta en forma de intercambio de datos, limpieza de datos e ingeniería de características. Los datos del mundo real son notoriamente sucios y se deben hacer muchas suposiciones para cerrar la brecha entre los datos que tenemos y las preguntas comerciales o políticas que estamos tratando de abordar. Estos supuestos también dependen en gran medida del conocimiento del mundo real y del contexto empresarial.

En el ejemplo de Target, los científicos de datos tuvieron que hacer suposiciones sobre las variables proxy para el embarazo, el marco de tiempo realista de sus análisis y los grupos de control apropiados para una comparación precisa. Es casi seguro que tuvieron que hacer suposiciones realistas que les permitieran descartar datos extraños y normalizar correctamente las funciones. Todo este trabajo depende críticamente del juicio humano. Sacar al humano del bucle puede ser peligroso, como hemos visto con la reciente oleada de sesgo en el aprendizaje automático incidentes. Quizás no sea una coincidencia que muchos de ellos giren en torno a aprendizaje profundo algoritmos que hacen algunos de los reclamos más fuertes Para hacer afuera con ingeniería de características.

Entonces, si bien partes del aprendizaje automático central están automatizadas (de hecho, incluso enseñamos algunas de las formas de automatizar esos flujos de trabajo), la manipulación de datos, la limpieza de datos y la ingeniería de funciones (que comprende el 90% del trabajo real en ciencia de datos) no se pueden automatizado de forma segura.

Una analogía histórica

Existe un claro precedente en la historia que sugiere que la ciencia de datos no se automatizará. Hay otro campo en el que humanos altamente capacitados están elaborando códigos para hacer que las computadoras realicen hazañas asombrosas. A estos humanos se les paga una prima significativa sobre otros que no están capacitados en este campo y (tal vez no sea sorprendente) hay programas de educación que se especializan en entrenar esta habilidad. La presión económica resultante para automatizar este campo es igualmente, si no más, intensa. Este campo es la ingeniería de software.

De hecho, a medida que la ingeniería de software se ha vuelto más fácil, la demanda de programadores solo ha crecido. Esta paradoja, que la automatización aumenta la productividad, baja los precios y, en última instancia, aumenta la demanda, no es nueva, la hemos visto una y otra vez en campos que van desde la ingeniería de software hasta análisis financiero a contabilidad. La ciencia de datos no es una excepción y la automatización probablemente aumentará la demanda de este conjunto de habilidades, no disminuirá.


Source link