¿Hasta dónde llega nuestra huella digital? Sabemos del rastro que dejan nuestras participaciones en las redes sociales y cualquier contenido que subamos a un lugar accesible —o no tan accesible— de internet. Pero las contribuciones que hacemos en esos foros van de cara a la galería. Modulamos sus contenidos teniendo en cuenta una idea aproximada de quienes van a verlas y la imagen que queremos dar. Las plataformas de mensajería instantánea, como WhatsApp, son harina de otro costal: “En los mensajes privados revelas más sobre ti, no solo en el contenido, sino en como usas el lenguaje”, explica Timo Koch, investigador de departamento de Psicología de la Universidad de Múnich.
Después de analizar un conjunto de más de 300.000 mensajes de WhatsApp y entrenar un algoritmo capaz de reconocer la edad y género de sus autores, Koch y su equipo advierten que el experimento pone de manifiesto la importancia de preservar la privacidad en estos espacios. “El cifrado de extremo a extremo es un importante primer paso. Pero aparte de eso necesitamos estar informados y que las plataformas sean transparentes y añadan etiquetas cuando la información no está cifrada”, razona el experto.
Las preocupaciones de Koch y su equipo vienen avivadas por la tendencia de las redes sociales a favorecer cada vez más el uso de espacios de mensajería privada. “Facebook está cambiando el foco hacia estas conversaciones y probablemente querrán usar los datos, así que necesitamos tener una conversación sobre cómo queremos proteger esos mensajes y asegurarnos de que si se etiquetan como privados, de verdad lo son”.
Más información
¿Cuántos mensajes hacen falta para identificarnos? Depende de qué parte del proceso estemos considerando. Koch y su equipo han basado su algoritmo en los contenidos de What’s up, Deutschland?, un corpus de 451.938 conversaciones de WhatsApp cedidas por 495 voluntarios alemanes. Después de filtrar los casos donde no se facilitaba edad y género y los intercambios demasiado breves, se quedaron con 226 sujetos, 309.229 mensajes, 1.949.518 palabras.
Estudios similares que han utilizado las redes sociales como fuente de los contenidos han basado sus análisis en grandes muestras de texto de decenas de millones de palabras aportadas por decenas de miles de voluntarios. Pero las carencias en cuanto al volumen de información las neutraliza la calidad de esta y el modo más íntimo en que nos expresamos en estos entornos. “El hecho de que tengamos un conjunto de datos tan pequeño y nuestras predicciones funcionan nos da una pista de cuánto más podría hacerse. Nuestros resultados deberían considerarse un mínimo”, aseguran.
Una vez entrenado el algoritmo, basta una muestra de unas 1.000 palabras para obtener una clasificación de género y edad con razonable precisión. Para poder valorar esta cifra, hemos hecho un recuento de palabras en una conversación moderadamente activa entre dos personas: tres días de diálogo dejan tras de sí algo más de 1.000 palabras. Pese a todo, los investigadores reconocen que con una base de datos mayor el potencial del análisis sería muy superior. “Si pensamos en análisis de personalidad u otras características necesitaríamos más información porque hay diferencias más sutiles”, comenta Koch. “Cuando tienes un buen modelo, hacer una predicción es cuestión de menos de dos segundos”.
Dime quién eres y te diré cómo wasapeas
Esta identificación es posible porque nuestra manera de expresarnos en WhatsApp responde a patrones demográficos. De acuerdo con los contenidos de What’s up, Deutschland?, los usuarios más jóvenes emplean más emojis y se expresan en primera persona con más frecuencia. Esta característica, que ya se ha apreciado en el estudio de contenidos vertidos en otras plataformas, parece confirmar que nos volvemos menos individualistas con la edad.
En lo que respecta al género, Koch y su equipo encontraron un uso mayor y más variado de los emojis en las mujeres, que también recurren más a los pronombres en primera persona del singular. En el caso de los hombres, destaca el uso de un lenguaje más coloquial y mayor frecuencia de las referencias al consumo de alcohol.
Koch no descarta que se hayan producido pequeñas evoluciones en el modo en que nos expresamos en estos foros. No en vano, los contenidos del conjunto de datos que han empleado para su estudio se compilaron entre noviembre de 2014 y enero de 2015. Formatos como los stickers, que se incorporaron en 2018 —aunque ya estaban en otras aplicaciones, como Line—, o el acceso directo a los gifs podrían haber introducido ciertas variaciones.
Pero acceder a un corpus más amplio y actualizado no es fácil, al menos desde el entorno académico. “Una gran tecnológica tiene acceso a muchos más datos”, señala. Fuentes de información más ricas y recientes permitirían por ejemplo, hacer análisis más complejos de la personalidad de los usuarios o estudiar cómo varía el modo en que nos sinceramos a través los mensajes privados en contraste con lo que compartimos desde las redes sociales en diferentes culturas y contextos nacionales.
Otra limitación que se da fuera de los países angloparlantes es el idioma. El dominio del inglés en el desarrollo de sistemas de procesamiento del lenguaje implica que la mayoría de las herramientas disponibles están en esta lengua. “Tuvimos que entrenar nuestros propios modelos. Cada idioma es diferente y tiene sus propias señales”, precisa Koch.
Vistas las orejas del lobo, ¿deberíamos medir más la sinceridad de las conversaciones que tenemos en aplicaciones de mensajería privada? Para Koch ahora mismo depende de cuánto peso demos a la privacidad en contraste con la comodidad. “Hay algunas buenas alternativas, como Signal, que también está encriptado y no tiene detrás una corporación que tenga interés en sacar beneficio de la información”, comenta.
Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.