Cambridge Analytica buscó usar datos de Facebook para predecir el partidismo para la selección de votantes, confirma una investigación del Reino Unido

El organismo de control de datos del Reino Unido envió una carta al parlamento en lugar de un informe final sobre una investigación de amplio alcance sobre la publicidad política en línea que vio allanando las oficinas de Cambridge Analytica en 2018 después de que se supo que la compañía de datos deshonrada (y ahora desaparecida) había adquirido datos incorrectamente sobre millones de usuarios de Facebook.

En el carta el regulador dice que el material que revisó incluía:

42 ordenadores portátiles y ordenadores; 700 TB de datos; 31 servidores; más de 300.000 documentos; y una amplia gama de material en forma de papel y desde dispositivos de almacenamiento en la nube

“El gran volumen de material incautado significó que se nos presentó un ‘pajar’ digital de información en varios estados y ubicaciones y esto ha prolongado el trabajo involucrado en la revisión y evaluación del material para ayudarnos a comprender lo que sucedió. Sin embargo, al juntar la línea de tiempo de los eventos, pudimos obtener una visión probatoria completa de lo que probablemente había sucedido ”, escribe antes de continuar esbozando su comprensión de cómo Cambridge Analytica / SCL estaba operando en el momento en que pagó. un académico de la Universidad de Cambridge, el Dr. Aleksandr Kogan, para obtener y procesar indebidamente millones de datos de usuarios de Facebook con la intención de apuntar a los votantes estadounidenses con anuncios.

“La conclusión de este trabajo demostró que SCL estaba agregando conjuntos de datos de varias fuentes comerciales para hacer predicciones sobre datos personales con fines de alianza política”, escribe la ICO. “Por ejemplo, recuperamos datos que incluían archivos de votantes (la versión estadounidense del Registro Electoral), conjuntos de datos de consumidores, redes sociales y conjuntos de datos de inteligencia que parecían provenir de las siguientes empresas: Labels & Lists, InfoGroup, Aristotle, Magellan, Acxiom y Experian. Algunos datos tienen la apariencia de datos de votantes estadounidenses similares que han sido objeto de violaciones cibernéticas conocidas y han estado disponibles en línea “.

El ex director ejecutivo de Cambridge Analytica, Alexander Nix, a quien el mes pasado se le prohibió administrar una empresa durante siete años, después de que firmó un compromiso de descalificación con el servicio de insolvencia del Reino Unido, dijo anteriormente al parlamento del Reino Unido que CA / SCL había adquirido la mayor parte del datos que estaba utilizando para construir perfiles psicográficos de votantes a partir de importantes corredores de datos comerciales como Acxiom, Experian e Infogroup.

Según la evaluación de la ICO, CA / SCL había estado exagerando la profundidad de su perfil de personas, y el regulador dijo que no encontró evidencia para respaldar las afirmaciones en su material de marketing de que tenía “más de 5,000 puntos de datos por individuo en 230 millones estadounidenses adultos ”.

“Según lo que encontramos, parece que esto puede haber sido una exageración”, escribe.

La ICO se mostró satisfecha de que los datos de Facebook transferidos a CA / SCL por la empresa del Dr. Kogan se incorporaran a una base de datos más grande preexistente que ya tenía, que contenía “archivos de votantes, datos demográficos y de consumidores de individuos estadounidenses”.

“Los puntos de datos recopilados por GSR [Dr Kogan’s company] con respecto a [Facebook app] Los usuarios de la encuesta y sus ‘amigos’ de Facebook fueron seleccionados específicamente para permitir un proceso de ‘comparación’ con bases de datos SCL preexistentes ”, escribe, explicando su comprensión de cómo CA / SCL usó los datos de Facebook obtenidos incorrectamente. “El emparejamiento se llevó a cabo utilizando plataformas de intercambio de archivos y por referencia al nombre, fecha de nacimiento y ubicación, y los archivos de datos existentes de SCL se ‘enriquecieron’ y se complementaron con los datos de GSR sobre esas mismas personas, y esta información emparejada se devolvió a los sistemas SCL.

“Esto dio como resultado, por ejemplo, información que incluye puntajes para la frecuencia de votación, ya sea probablemente republicano o demócrata, consistencia de la votación y un perfil que predijo rasgos de personalidad que coincidían con información como identificación de votante, nombre, dirección, edad y otros datos comerciales”.

La investigación también confirmó que CA / SCL aplicó técnicas de inteligencia artificial a los datos para tratar de predecir el partidismo u otros atributos importantes de los votantes con el fin de apuntarlos de manera más efectiva con mensajes políticos. Aunque dice que no pudo confirmar si tales técnicas se utilizaron en campañas específicas.

“A través de dichos procesos, los datos relevantes del GSR de los votantes de EE. UU. (Aproximadamente 30 millones de personas) se analizaron más a fondo utilizando algoritmos de aprendizaje automático para crear puntajes ‘previstos’ adicionales relacionados con el partidismo y otros criterios que luego se aplicaron a todas las personas en la base de datos . Algunos de estos se centraron en gustos tan amplios como los “derechos de los homosexuales”, “Obama, el peor presidente de la historia de Estados Unidos”, “Reeligir al presidente Obama en 2012”, “la Biblia” y la “Asociación Nacional del Rifle”, escribe.

“Estos puntajes se utilizaron para identificar grupos de personas similares que podrían ser potencialmente objeto de publicidad relacionada con campañas políticas. En última instancia, esta publicidad dirigida fue probablemente el propósito final de la recopilación de datos, pero no ha sido posible determinar si los datos específicos de GSR se usaron en cualquier parte específica de la campaña a partir de la evidencia digital revisada. Sin embargo, hay evidencia recuperada que sugiere que se utilizaron enfoques y modelos similares basados en los rasgos de personalidad previstos y otras medidas con los datos del Comité Nacional Republicano (RNC) “.

Sobre los métodos de modelado de datos de CA / SCL, el ICO concluye que la empresa estaba utilizando principalmente “procesos bien reconocidos que utilizan tecnología comúnmente disponible”.

“Por ejemplo, SCL descargó bibliotecas de ciencia de datos de código abierto, como ‘scikit’, que contienen algoritmos bien establecidos y ampliamente utilizados para la visualización, el análisis y el modelado predictivo de datos. Fueron estas bibliotecas de terceros las que formaron la mayoría de las actividades de ciencia de datos de SCL que fueron observadas por la ICO ”, escribe. “Con estas bibliotecas, SCL probó varias arquitecturas de modelos de aprendizaje automático, funciones de activación y optimizadores diferentes (todos los cuales vienen predesarrollados dentro de las bibliotecas de terceros) para determinar qué combinaciones produjeron las predicciones más precisas en cualquier conjunto de datos dado. Entendemos que este procedimiento está bien establecido dentro de la comunidad científica de datos más amplia y, en nuestra opinión, no muestra ninguna tecnología o proceso patentado dentro del trabajo de SCL “.

El regulador señala además que hay preguntas en curso sobre la eficacia de dicho modelo para predecir los atributos de las personas, lo que destaca los signos de escepticismo interno sobre el enfoque.

“A través del análisis de la ICO de las comunicaciones internas de la empresa, la investigación identificó que existía un cierto grado de escepticismo dentro de SCL en cuanto a la precisión o confiabilidad del procesamiento que se estaba realizando. Parecía haber preocupación internamente sobre los mensajes externos cuando se comparan con la realidad de su procesamiento ”, señala.

La investigación de la ICO tampoco encontró evidencia de que los datos de Facebook que Kogan vendió a Cambridge Analytica se usaran para campañas políticas asociadas con el Referéndum Brexit del Reino Unido. “Nuestra opinión sobre la revisión de la evidencia es que los datos de GSR no podrían haber sido utilizados en el referéndum Brexit como los datos compartidos con SCL / Cambridge Analytica por el Dr. Kogan relacionados con los votantes registrados en Estados Unidos”, escribe.

La falta de evidencia de que los datos de los usuarios de Facebook del Reino Unido se hayan utilizado para los objetivos políticos fue el argumento de Facebook cuando impugnó la multa de £ 500k de la ICO por el escándalo de Cambridge Analytica.

El regulador finalmente llegó a un acuerdo con Facebook el año pasado, aunque la compañía no admitió responsabilidad.

La carta de la ICO también analiza la empresa de datos con sede en Canadá AIQ, que estaba vinculada a CA / SCL, y desempeñó un papel clave en el referéndum del Brexit del Reino Unido, ya que fue utilizada por varias campañas de ‘Dejar’ para dirigir anuncios a los votantes del Reino Unido a través de Facebook.

“Hubo una serie de pruebas que demostraron una relación muy estrecha entre AIQ y SCL (como pruebas que describían a AIQ como la rama canadiense de SCL y pruebas de que SCL pagaba directamente las facturas de Facebook a AIQ por publicidad). Sin embargo, AIQ ha negado constantemente tener una relación más cercana más allá de la que existe entre un desarrollador de software y su cliente. El Sr. Silvester (director / propietario de AIQ) ha declarado que en 2014 SCL ‘nos pidió que creáramos SCL Canadá, pero lo rechazamos’ ”, escribe la ICO.

El regulador dice que investigó si AIQ había utilizado los mismos conjuntos de datos para dirigir anuncios a los votantes del Reino Unido en nombre de tres campañas diferentes de ‘Leave’: Vote Leave, BeLeave, DUP y Veterans for Britain, pero no encontró evidencia de que esto haya ocurrido.

“La información inicial proporcionada por Facebook había sugerido que había tres audiencias que se utilizaron para la orientación tanto por Vote Leave como por BeLeave. Sin embargo, AIQ posteriormente aclaró que se trataba de un error administrativo cometido por un miembro menor del personal al crear la cuenta de BeLeave. El error se corrigió al día siguiente y ninguna información de esas campañas se difundió a través de Facebook en forma de anuncios dirigidos ”, escribe.

Si bien la carta de la ICO al parlamento en lugar de un informe final más formal puede parecer un anticlímax para un escándalo de uso indebido de datos de larga duración, el regulador reitera su preocupación por lo que la carta expresa como “vulnerabilidades sistémicas en nuestros sistemas democráticos”. ”.

Aunque la comisionada de información, Elizabeth Denham, no profundiza en su preocupación anteriormente declarada públicamente de que la democracia está siendo interrumpida por los macrodatos.

En cambio, la carta señala que la ICO ha proporcionado “asesoramiento y orientación” con el objetivo de lograr un mejor cumplimiento futuro de las reglas a varias organizaciones no identificadas en el lado restante y el lado izquierdo del referéndum del Reino Unido.

“Mis equipos de auditoría también han concluido auditorías del cumplimiento de la protección de datos en 14 organizaciones asociadas con la investigación original, que incluyen: los principales partidos políticos, las principales agencias de referencia crediticia y los principales corredores de datos, así como el Centro de Psicometría de la Universidad de Cambridge. Hemos hecho importantes recomendaciones de cambios para cumplir con la legislación de protección de datos ”, agrega.

El detalle de esas recomendaciones “significativas” están pendientes de informes de las auditorías del ICO a los principales partidos políticos; las principales agencias de referencia crediticia y los principales corredores de datos; y el Centro de Psicometría de la Universidad de Cambridge, que según la ICO se publicará “en breve”.

Un detalle más interesante de la investigación de CA / SCL de la ICO es que parece que la compañía había estado planeando reubicar sus datos en el extranjero para evitar el escrutinio regulatorio, presumiblemente cuando el furor de los medios en torno al escándalo de datos de Facebook puso de relieve sus procesos.

“También identificamos evidencia de que en sus últimas etapas SCL / CA estaba elaborando planes para reubicar sus datos en el extranjero para evitar el escrutinio regulatorio por parte de ICO. Hemos seguido su compleja estructura empresarial con contrapartes en el extranjero y hemos llegado a la conclusión de que, aunque se elaboraron los planes, la empresa no pudo ponerlos en práctica antes de que dejara de cotizar ”, es la conclusión del regulador al respecto.

En el propio conjunto de datos de Facebook, la ICO dice que su investigación encontró datos “en una variedad de ubicaciones, sin pensar en medidas de seguridad efectivas”. “Descubrimos que las personas de interés para la investigación tenían datos en varias cuentas de Gmail”, señala. “Los datos también se encontraron en servidores y parecían haber sido compartidos con una variedad de partes, por ejemplo, había evidencia de que los datos se habían compartido con el personal de SCL / CA, Eunoia Technologies Inc [CA whistleblower Chris Wylie‘s company], la Universidad de Cambridge y la Universidad de Toronto “.

La carta también revela que varias “figuras importantes” anónimas asociadas con el escándalo han continuado negándose a cooperar con la investigación de la ICO. “Varias figuras importantes han continuado manteniendo su silencio y se han negado a ser entrevistadas”, señala.

Source link