El estudio ‘bot o no’ de Twitter de los investigadores de Duo Security descubre una botnet de criptomonedas

Un equipo de investigadores de Duo Security ha descubierto una sofisticada botnet que opera en Twitter y se utiliza para difundir una estafa de criptomonedas.

La botnet fue descubierta durante el curso de un proyecto de investigación más amplio para crear y publicar una metodología para identificar la automatización de cuentas de Twitter, para ayudar a respaldar más investigaciones sobre los bots y cómo operan.

El equipo utilizó la API de Twitter y algunas técnicas estándar de enriquecimiento de datos para crear un gran conjunto de datos de 88 millones de cuentas públicas de Twitter, que comprenden más de 500 millones de tweets. (Aunque dicen que se enfocaron en los últimos 200 tweets por cuenta para el estudio).

Luego utilizaron métodos clásicos de aprendizaje automático para entrenar a un clasificador de bots, y luego aplicaron otras técnicas probadas de ciencia de datos para mapear y analizar la estructura de botnets que habían descubierto.

Están abriendo su sistema de recopilación de datos y documentación con la esperanza de que otros investigadores tomen el testigo y lo sigan, como, por ejemplo, para hacer un estudio de seguimiento centrado en tratar de identificar la automatización buena y la mala.

Su propio clasificador se centró en bots de juego puro, en lugar de cuentas híbridas que combinan intencionalmente la automatización con algunas interacciones humanas para hacer que los bots sean aún más difíciles de detectar.

Tampoco miran el sentimiento para este estudio, sino que se fijaron en abordar la pregunta central de si una cuenta de Twitter está automatizada o no.

Dicen que es probable que algunos híbridos ‘cyborg’ se hayan infiltrado en su conjunto de datos, como las cuentas de Twitter de servicio al cliente que operan con una combinación de automatización y atención del personal. Pero, una vez más, no estaban preocupados específicamente por intentar identificar los híbridos bot-humano-agente (aún más resbaladizos), como los que, por ejemplo, están involucrados en los esfuerzos respaldados por el estado para cercar la desinformación política.

El estudio los llevó a un análisis interesante de las arquitecturas de las redes de bots, y su artículo incluye un estudio de caso sobre la red de bots de estafa de criptomonedas que desenterraron (que, según dicen, estaba compuesta por al menos 15,000 bots “pero probablemente muchos más”), y que intenta desviar dinero de usuarios desprevenidos a través de enlaces de “obsequios” maliciosos …

‘Intentos’ es el tiempo correcto porque, a pesar de informar los hallazgos de su investigación a Twitter, dicen que esta botnet de estafa criptográfica todavía está funcionando en su plataforma, imitando cuentas de Twitter legítimas, incluidas las organizaciones de noticias (como el siguiente ejemplo), y en una escala mucho menor, secuestrar cuentas verificadas …

Incluso encontraron que Twitter recomendaba a los usuarios que siguieran a otros robots de spam en la red de bots en la sección “A quién seguir” en la barra lateral. Ay.

Una portavoz de Twitter no respondió a nuestras preguntas específicas sobre su propia experiencia y comprensión de los bots y redes de bots en su plataforma, por lo que no está claro por qué aún no ha podido vencer por completo esta botnet de criptografía. Aunque en una declaración en respuesta a la investigación, la compañía sugiere que este tipo de automatización de spam puede detectarse y ocultarse automáticamente por sus contramedidas antispam (que no se reflejarían en los datos a los que los investigadores de Duo tuvieron acceso a través de la API de Twitter).

Twitter dijo:

Somos conscientes de esta forma de manipulación y estamos implementando de manera proactiva una serie de detecciones para evitar que este tipo de cuentas interactúen con otras personas de manera engañosa. Correo no deseado y ciertas formas de automatización están en contra de las reglas de Twitter. En muchos casos, el contenido de spam se oculta en Twitter sobre la base de detecciones automatizadas. Cuando se oculta contenido fraudulento en Twitter en áreas como búsquedas y conversaciones, es posible que eso no afecte su disponibilidad a través de la API. Esto significa que ciertos tipos de spam pueden ser visibles a través de la API de Twitter incluso si no es visible en Twitter. Menos del 5% de las cuentas de Twitter están relacionadas con el spam.

La portavoz de Twitter también señaló (obvio) que no todos los bots y la automatización son malos, apuntando a un reciente blog de la empresa que reitera esto, con la compañía destacando las “experiencias agradables y divertidas” que ofrecen ciertos bots como Pentametrón, por ejemplo, una creación automatizada veterana que encuentra pares de Tweets que riman escritos en pentámetro yámbico (accidental).

Ciertamente, nadie en su sano juicio se quejaría de un bot que ofrece un homenaje automatizado al medidor preferido de Shakespeare. Incluso cuando nadie en su sano juicio no se quejaría del flagelo continuo de las estafas de criptomonedas en Twitter …

Una cosa es clara como el cristal: el complicado asunto de responder a la pregunta de ‘bot o no’ es importante, y cada vez más, dada la militarización de la desinformación en línea. Puede convertirse en una búsqueda tan politizada e imperativa que las plataformas terminen necesitando mostrar una ‘puntuación de bot’ junto a cada cuenta (la portavoz de Twitter no respondió cuando le preguntamos si podría considerar hacer esto).

Si bien existen metodologías y técnicas de investigación para tratar de determinar la automatización de Twitter, el equipo de Duo Security dice que a menudo se sienten frustrados por la falta de datos de respaldo a su alrededor, y que ese fue uno de sus impulsos para llevar a cabo la investigación.

“En algunos casos hubo una historia incompleta”, dice el científico de datos Olabode Anise. “Donde realmente no mostraron cómo obtuvieron los datos que dijeron que usaron. Y tal vez comenzaron con la conclusión, o la mayor parte de la investigación hablaba de la conclusión y queríamos brindar a las personas la capacidad de asumir esta investigación por sí mismos. Por eso es que estamos en código abierto para todos nuestros métodos y herramientas. Para que la gente pueda comenzar desde el punto ‘A’: Primero, recopile los datos; entrenar un modelo; y luego encontrar bots en la plataforma de Twitter a nivel local “.

“No hicimos nada sofisticado o técnicas de investigación”, agrega. “Realmente estábamos exagerando cómo podríamos hacer esto a escala porque realmente creemos que hemos creado uno de los conjuntos de datos más grandes asociados con las cuentas públicas de Twitter”.

Anise dice que su modelo de clasificador se entrenó con datos que formaron parte de una investigación de 2016 realizada por investigadores de la Universidad del Sur de California, junto con algunos datos de la botnet criptográfica que descubrieron durante su propia búsqueda en el conjunto de datos de tweets públicos que crearon. (porque, como él dice, es “un sello distintivo de la automatización”, por lo que resulta que las estafas de criptomonedas son buenas para algo).

En términos de determinar la precisión del clasificador, Anise dice que la “parte difícil” es la falta constante de datos sobre cuántos bots hay en la plataforma de Twitter.

Te imaginarías (o, bueno, espero) que Twitter lo sepa, o al menos puede estimar eso. Pero, de cualquier manera, Twitter no está haciendo público ese punto de datos. Lo que significa que es difícil para los investigadores verificar la precisión de sus modelos de ‘bot o no’ con los datos de tweets públicos. En su lugar, tienen que cotejar los clasificadores con conjuntos de datos (más pequeños) de cuentas de bot etiquetadas. Ergo, determinar con precisión la precisión es otro problema (relacionado con la detección de bots).

Anise dice que su mejor modelo fue ~ 98% “en términos de identificar correctamente diferentes tipos de cuentas” cuando se midió mediante una verificación cruzada (es decir, no se comparó con el conjunto de datos completo de 88M porque, como él dice, “no tienes una forma infalible de saber si estas cuentas son bots o no ”).

Aún así, el equipo parece estar seguro de que su enfoque, utilizando lo que denominan “técnicas prácticas de ciencia de datos”, puede dar frutos para crear un clasificador que sea eficaz para encontrar bots de Twitter.

“Básicamente, mostramos, y esto era lo que realmente estábamos tratando de transmitir, es que algunos enfoques simples de aprendizaje automático que las personas que tal vez vieron un tutorial de aprendizaje automático podrían seguir y ayudar a identificar bots con éxito”, agrega.

Una pequeña arruga más: los bots en los que se entrenó el modelo no eran todas las formas de automatización en la plataforma de Twitter. Así que admite que eso también puede afectar su precisión. (Aka: “El modelo que construyas solo será tan bueno como los datos que tengas”. Y, bueno, una vez más, las personas con los mejores datos de Twitter trabajan en Twitter…)

El estudio de caso de cripto botnet que el equipo ha incluido en su trabajo de investigación no solo está ahí para llamar la atención: está destinado a demostrar cómo, utilizando las herramientas y técnicas que describen, otros investigadores también pueden progresar desde la búsqueda de bots iniciales hasta tirar de hilos, descubriendo y desentrañar una botnet completa.

Así que han creado una especie de “guía de cómo guiar” para la búsqueda de redes de bots de Twitter.

La cripto botnet que analizan para el estudio, utilizando el mapeo de redes sociales, se describe en el documento como que tiene una “estructura jerárquica única de tres niveles”.

“Tradicionalmente, cuando se encuentran redes de bots de Twitter, suelen seguir una estructura muy plana en la que todos los bots de la red de bots tienen el mismo trabajo. Todos van a difundir cierto tipo de tweet o cierto tipo de spam. Por lo general, no se ve mucha coordinación y segmentación en términos de los trabajos que tienen que hacer ”, explica el ingeniero de seguridad principal, Jordan Wright.

“Esta botnet fue única porque cada vez que comenzamos a trazar las conexiones sociales entre diferentes bots, averiguando a quién seguían y quién los seguía, pudimos enumerar una estructura realmente clara que mostraba los bots que están conectados de una manera particular y una otro clúster que estaban conectados de forma separada.

“Esto es importante porque vemos cómo los propietarios de bots están cambiando sus tácticas en términos de cómo organizaban estos bots a lo largo del tiempo”.

También descubrieron que los tweets de spam publicados por la botnet estaban siendo impulsados por otros bots en la botnet para amplificar la propagación general de la estafa de criptomonedas; Wright describe esto como un proceso de “inflación artificial”, y dice que funciona mediante la botnet. propietario que crea nuevos bots cuyo único trabajo es dar me gusta o, más tarde, retuitear los tweets fraudulentos.

“El objetivo es darles una popularidad artificial de modo que si yo soy la víctima y me desplazo por Twitter y me encuentro con estos tweets, es más probable que piense que son legítimos en función de la frecuencia con la que lo hayan hecho. han retuiteado o cuántas veces les ha gustado ”, añade.

“Mapear estas conexiones entre los me gusta y, además de la red social que ya hemos reunido, realmente nos da una botnet de varias capas, que es bastante única, bastante sofisticada y muy organizada donde cada bot tenía uno, y en realidad solo un trabajo , hacer para tratar de ayudar a apoyar el objetivo más amplio. Eso fue exclusivo de esta botnet “.

Twitter ha realizado una serie de cambios recientemente destinados a acabar con la actividad de la plataforma no auténtica que los spammers han explotado para tratar de dar más autenticidad y autoridad a sus estafas.

Sin embargo, está claro que Twitter tiene más trabajo por hacer.

“Hay razones muy prácticas por las que lo consideraríamos sofisticado”, añade Wright, de la cripto botnet que el equipo ha convertido en un caso de estudio. “Está en curso, está evolucionando y ha cambiado su estructura con el tiempo. Y la estructura que tiene es jerárquica y organizada ”.

Anise y Wright presentarán su investigación de botnet de Twitter en Miércoles 8 de agosto en el Black Hat conferencia.

Source link