La revolución de los datos industriales: en qué se equivocaron los fundadores

Colaborador de Joe Hellerstein

Joe Hellerstein es cofundador y director de estrategia de Trifecta y la Cátedra Jim Gray de Ciencias de la Computación en UC Berkeley.

En febrero de 2010, The Economist publicó un informe llamado “Datos, datos en todas partes.” Poco sabíamos entonces cuán simple era en realidad el panorama de datos. Es decir, en términos comparativos, cuando considera las realidades de datos a las que nos enfrentamos al mirar hacia 2022.

En ese informe de The Economist, hablé sobre la entrada de la sociedad en una “Revolución industrial de datos”, que comenzó con el entusiasmo en torno a Big Data y continúa en nuestra era actual de IA basada en datos. Muchos en el campo esperaban que esta revolución trajera estandarización, con más señal y menos ruido. En cambio, tenemos más ruido, pero una señal más potente. Es decir, tenemos problemas de datos más difíciles con mayores resultados comerciales potenciales.

Y también hemos visto grandes avances en inteligencia artificial. ¿Qué significa eso para nuestro mundo de datos ahora? Echemos un vistazo a donde estábamos.

En el momento de ese artículo de The Economist, estaba de permiso de UC Berkeley para dirigir un laboratorio para Intel Research en colaboración con el campus. En ese entonces, nos enfocamos en lo que ahora llamamos Internet de las cosas (IoT).

En ese momento, hablábamos de redes de pequeños sensores interconectados integrados en todo: edificios, naturaleza, la pintura de las paredes. La visión era que podíamos medir el mundo físico y capturar su realidad como datos, y estábamos explorando teorías y construyendo dispositivos y sistemas hacia esa visión.

Estábamos ansiosos. Pero en ese momento, la mayor parte del entusiasmo popular por los datos giraba en torno al auge de la web y los motores de búsqueda. Todo el mundo hablaba de la accesibilidad de masas de información digital en forma de “documentos”: contenido generado por humanos destinado al consumo humano.

Lo que vimos en el horizonte fue una ola aún mayor de datos generados por máquinas. Ese es un aspecto de lo que quise decir con la “industrialización de los datos”: dado que las máquinas eliminarían los datos, el volumen aumentaría enormemente. Y eso ciertamente sucedió.

El segundo aspecto de la “Revolución industrial de los datos” que esperaba era el surgimiento de la estandarización. En pocas palabras, si las máquinas están generando cosas, generarán cosas en la misma forma cada vez, por lo que debería ser mucho más fácil comprender y combinar datos de innumerables fuentes.

Los precedentes para la estandarización estaban en la Revolución Industrial clásica, donde había un incentivo para que todas las partes estandarizaran los recursos compartidos como el transporte y el envío, así como las especificaciones del producto. Parecía que eso también debería ser válido para la nueva revolución industrial de los datos, y la economía y otras fuerzas impulsarían la estandarización de los datos.

Eso no sucedió en absoluto.

De hecho, sucedió todo lo contrario. Obtuvimos un enorme aumento en el “agotamiento de datos”, subproductos de la computación que crece exponencialmente en forma de archivos de registro, pero solo un aumento modesto en los datos estandarizados.

Y así, en lugar de tener datos uniformes orientados a máquinas, obtuvimos un aumento masivo en la variedad de datos y tipos de datos y una disminución en el gobierno de datos.

Además del agotamiento de datos y los datos generados por máquinas, comenzamos a tener usos contradictorios de los datos. Esto ocurrió porque las personas involucradas con los datos tenían muchos incentivos diferentes para su uso.

Considere los datos de las redes sociales y las conversaciones recientes sobre “noticias falsas”. El comienzo del siglo XXI ha sido un experimento gigante en lo que hace que la información digital sea viral, no solo para los individuos, sino también para las marcas o los intereses políticos que buscan llegar a las masas.

Hoy en día, gran parte de ese contenido es de hecho generado por máquinas, pero es generado por máquinas para el consumo humano y los patrones de comportamiento humanos. Esto contrasta con la web de años atrás “por personas, para personas”.

En resumen, la industria de producción de datos actual tiene un volumen increíblemente alto, pero no está ajustada para representaciones de datos estándar, no en el sentido que esperaba en el momento de esas predicciones hace más de una década.

El estado de la innovación: IA versus aporte humano

Una cosa que claramente ha avanzado sustancialmente en la última década es la inteligencia artificial. Este gran volumen de datos a los que podemos acceder, procesar y alimentar modelos ha cambiado la IA de ciencia ficción a realidad en unos pocos años.

Pero la IA no es tan útil en el dominio del procesamiento de datos empresariales como cabría esperar, al menos no todavía. Todavía hay una desconexión sorprendente entre la tecnología de IA como el procesamiento del lenguaje natural y los datos estructurados. Aunque hemos tenido algún progreso, en su mayor parte, no puede hablar con sus datos y esperar mucho a cambio. Hay algunas situaciones en las que puede buscar en Google una pregunta cuantitativa y obtener una pequeña tabla o gráfico, pero eso es solo si hace las preguntas correctas.

En su mayor parte, los avances de la IA todavía están bastante divorciados de cosas como hojas de cálculo y archivos de registro y todos estos otros datos estructurados más cuantitativos, incluidos los datos de IoT. Resulta que los tipos de datos tradicionales, los tipos de datos que siempre hemos puesto en las bases de datos, han sido mucho más difíciles de descifrar con la IA que las aplicaciones de consumo como la búsqueda de imágenes o la simple respuesta a preguntas en lenguaje natural.

Caso en cuestión: ¡lo animo a que intente pedirle a Alexa o Siri que limpien sus datos! Es divertido, pero no muy útil.

Las aplicaciones populares de IA aún no se han proyectado hacia la industria de datos tradicional, pero no es por falta de intentos. Muchas personas inteligentes tanto en universidades como en empresas no han sido capaces de resolver los problemas tradicionales de integración de datos orientados a registros.

Sin embargo, la automatización completa elude la industria. Parte de eso se debe a que es difícil para los humanos especificar lo que quieren de los datos por adelantado. Si realmente pudiera decir: “Esto es precisamente lo que me gustaría que hiciera con estas 700 tablas”, y continuar con objetivos claros, tal vez un algoritmo podría hacer la tarea por usted. Pero eso no es realmente lo que sucede. En cambio, la gente ve 700 mesas, se pregunta qué hay allí y comienza a hurgar. Solo después de mucho hurgar tienen alguna idea de lo que querrían que sucediera con esas mesas.

El hurgar sigue siendo un trabajo creativo porque el espacio de formas de usar los datos es muy grande y las métricas de cómo se ve el éxito son muy variadas. No puede simplemente proporcionar los datos a los algoritmos de optimización para encontrar la mejor opción de resultado.

En lugar de esperar la automatización completa de la IA, los humanos deberían obtener toda la ayuda que puedan de la IA, pero en realidad retener alguna agencia e identificar qué es útil o no, luego dirigir los siguientes pasos en una dirección determinada. Eso requiere visualización y un montón de comentarios de la IA.

Comprender el impacto de los datos y controlar la propagación de datos

Sin embargo, un lugar donde la IA realmente ha brillado es en la recomendación de contenido. Resulta que las computadoras son tremendamente efectivas para seleccionar y difundir contenido. Y, vaya, subestimamos los incentivos y los impactos en torno a ese aspecto de los datos y la IA.

En aquel entonces, las preocupaciones éticas que teníamos en torno a los datos y sus usos en IA se referían principalmente a la privacidad. Recuerdo grandes debates sobre si la biblioteca pública debería tener registros digitales de los libros que reservas. Del mismo modo, hubo controversias sobre los programas de tarjetas de fidelización de comestibles. Los compradores no querían que las cadenas de supermercados hicieran un seguimiento de los alimentos que compraron y cuándo los seleccionaran para los artículos que los acompañaban.

Esa mentalidad ha cambiado en gran medida. Hoy en día, los adolescentes comparten radicalmente más información personal en las redes sociales que la marca de alimentos que compran.

Si bien no diría que la privacidad digital está en buen estado, podría decirse que no es el peor de nuestros problemas de datos en la actualidad. Hay problemas como los actores financiados por el estado que intentan introducir el caos en nuestro discurso social, utilizando datos. Hace veinte años, muy pocas personas veían venir esto en nuestro camino. No creo que haya un gran sentido de las cuestiones éticas de lo que podría salir mal.

Esto lleva a lo que sigue, e incluso actualmente en proceso, en la evolución de nuestros usos de datos. ¿Cuál se convierte en el papel de los gobiernos y de la legislación bien intencionada? Sin predecir todas las formas en que se utilizarán las herramientas, es difícil saber cómo gobernarlas y restringirlas de manera inteligente. Hoy, nos encontramos en un estado en el que parece que necesitamos descubrir los controles o incentivos en torno a los datos y la forma en que se promulgan, pero la tecnología está cambiando más rápido de lo que la sociedad es capaz de descubrir los riesgos y las protecciones. Es inquietante, por decir lo menos.

Entonces, ¿fueron acertadas las predicciones?

Como profesor, le otorgaría una calificación aprobatoria, pero no una A. Hay sustancialmente más datos disponibles para nosotros con más usos de los que probablemente podríamos haber imaginado. Eso ha llevado a avances increíbles en IA y aprendizaje automático junto con análisis, pero en muchas tareas, todavía estamos rascando la superficie, mientras que en otras estamos cosechando el torbellino. Estoy fascinado de ver lo que traerán los próximos 10 a 20 años y mirar hacia atrás sobre estos temas nuevamente.

Source link