Hatebase cataloga el discurso de odio del mundo en tiempo real para que no tengas que hacerlo

Hatebase cataloga el discurso de odio del mundo en tiempo real para que no tengas que hacerlo

Vigilar el discurso de odio es algo con lo que luchan casi todas las plataformas de comunicación en línea. Porque para vigilarlo, debes detectarlo; y para detectarlo, debes entenderlo. base de odio es una empresa que ha hecho de la comprensión del discurso de odio su misión principal y proporciona esa comprensión como un servicio, uno cada vez más valioso.

Esencialmente, Hatebase analiza el uso del lenguaje en la web, estructura y contextualiza los datos resultantes y vende (o proporciona) la base de datos resultante a empresas e investigadores que no tienen la experiencia para hacerlo por sí mismos.

La empresa canadiense, una operación pequeña pero en crecimiento, surgió de la investigación en el Proyecto Sentinel sobre la predicción y prevención de atrocidades basadas en el análisis del lenguaje utilizado en una región asolada por el conflicto.

“Lo que Sentinel descubrió fue que el discurso de odio tiende a preceder a la escalada de estos conflictos”, explicó Timothy Quinn, fundador y director ejecutivo de Hatebase. “Me asocié con ellos para construir Hatebase como un proyecto piloto, básicamente un léxico de discurso de odio multilingüe. Lo que nos sorprendió fue que muchas otras ONG [non-governmental organizations] comenzó a usar nuestros datos para el mismo propósito. Luego comenzamos a tener muchas entidades comerciales usando nuestros datos. Así que el año pasado decidimos convertirlo en una startup”.

Podrías estar pensando, “¿qué tiene de difícil detectar un puñado de insultos étnicos y frases de odio?” Y claro, cualquiera puede decirte (quizás a regañadientes) los insultos más comunes y las cosas ofensivas para decir, en su idioma… que conozcan. Hay mucho más en el discurso de odio que solo un par de palabras feas. Es todo un género de jerga, y la jerga de un solo idioma llenaría un diccionario. ¿Qué pasa con la jerga de todos los idiomas?

Un léxico cambiante

como Víctor Hugo señalado en Los Miserables, la jerga (o “argot” en francés) es la parte más mutable de cualquier idioma. Estas palabras pueden ser “palabras solitarias, bárbaras, a veces espantosas… El argot, al ser el idioma de la corrupción, se corrompe fácilmente. Además, como siempre busca disfrazarse, tan pronto como percibe que se le comprende, se transforma”.

La jerga y el discurso de odio no solo son voluminosos, sino que cambian constantemente. Así que la tarea de catalogarlo es continua.

Hatebase utiliza una combinación de procesos humanos y automatizados para raspar la web pública en busca de usos de términos relacionados con el odio. “Vamos a un montón de fuentes, la más grande, como se puede imaginar, es Twitter, y lo recopilamos todo y se lo entregamos a Hatebrain. Es un programa de lenguaje natural que revisa el correo y devuelve verdadero, falso o desconocido”.

Cierto significa que es bastante seguro que es un discurso de odio; como puedes imaginar, hay muchos ejemplos de esto. Falso significa no, por supuesto. Y desconocido significa que no puede estar seguro; tal vez sea sarcasmo, o charla académica sobre una frase, o alguien que usa una palabra que pertenece al grupo y está tratando de reclamarla o reprender a otros que la usan. Esos son los valores que salen a través de la API, y los usuarios pueden optar por buscar más información o contexto en la base de datos más grande, incluida la ubicación, la frecuencia, el nivel de ofensiva, etc. Con ese tipo de datos, puede comprender las tendencias globales, correlacionar la actividad con otros eventos o simplemente mantenerse al tanto del vertiginoso mundo de los insultos étnicos.

El discurso de odio se marca en todo el mundo: estos fueron algunos detectados hoy, junto con la latitud y longitud de la IP de la que provienen.

Sin embargo, Quinn no pretende que el proceso sea mágico o perfecto. “Hay muy pocos 100 por ciento que salen de Hatebrain”, explicó. “Varía un poco del enfoque de aprendizaje automático que usan otros. ML es genial cuando tienes un conjunto de entrenamiento inequívoco, pero con el discurso humano y el discurso de odio, que puede ser tan matizado, ahí es cuando aparece el sesgo. Simplemente no tenemos un corpus masivo de discurso de odio, porque nadie pueden estar de acuerdo en lo que es el discurso de odio”.

Eso es parte del problema al que se enfrentan empresas como Google, Twitter y Facebook: no se puede automatizar lo que no se puede entender automáticamente.

Afortunadamente, Hatebrain también emplea inteligencia humana, en forma de un cuerpo de voluntarios y socios que autentican, adjudican y agregan los puntos de datos más ambiguos.

“Tenemos un montón de ONG que se asocian con nosotros en regiones lingüísticamente diversas de todo el mundo, y acabamos de lanzar nuestro programa de ‘lingüistas ciudadanos’, que es un brazo voluntario de nuestra empresa, y están constantemente actualizando, aprobando y limpiando definiciones”, dijo Quinn. “Ponemos un alto grado de autenticidad en los datos que nos proporcionan”.

Esa perspectiva local puede ser crucial para comprender el contexto de una palabra. Dio el ejemplo de una palabra en Nigeria, que cuando se usa entre miembros de un grupo significa amigo, pero cuando la usa ese grupo para referirse a otra persona significa sin educación. Es poco probable que alguien más que un nigeriano pueda decirte eso. Actualmente, Hatebase cubre 95 idiomas en 200 países, y se están sumando a eso todo el tiempo.

Además, hay “intensificadores”, palabras o frases que no son ofensivas por sí mismas pero sirven para indicar si alguien está enfatizando el insulto o la frase. También intervienen otros factores, algunos de los cuales un motor de lenguaje natural puede no ser capaz de reconocer porque tiene muy pocos datos sobre ellos. Entonces, además de mantener las definiciones actualizadas, el equipo también está trabajando constantemente para mejorar los parámetros utilizados para categorizar los encuentros de discurso Hatebrain.

Construyendo una mejor base de datos para la ciencia y las ganancias

El sistema acaba de ingerir su millonésimo avistamiento de discurso de odio (de quizás diez veces la cantidad de frases evaluadas), que suena simultáneamente como mucho y poco. Es un poco porque el volumen del discurso en Internet es tan grande que uno espera que incluso la pequeña proporción que constituye discurso de odio sume millones y millones.

Pero es mucho porque nadie más ha reunido una base de datos de este tamaño y calidad. Un conjunto examinado de millones de puntos de datos de palabras y frases clasificadas como discurso de odio o no discurso de odio es un bien valioso por sí solo. Es por eso que Hatebase lo proporciona de forma gratuita a los investigadores e instituciones que lo utilizan con fines humanitarios o científicos.

Pero las empresas y las organizaciones más grandes que buscan subcontratar la detección del discurso de odio con fines de moderación pagan una tarifa de licencia, lo que mantiene las luces encendidas y permite que exista el nivel gratuito.

“Creo que tenemos cuatro de las diez redes sociales más grandes del mundo extrayendo nuestros datos. Tenemos a la ONU extrayendo datos, ONG, las hiperlocales trabajando en áreas de conflicto. Hemos estado sacando datos para el Departamento de Policía de Los Ángeles durante los últimos dos años. Y hablamos cada vez más con los departamentos gubernamentales”, dijo Quinn.

Tienen varios clientes comerciales, muchos de los cuales están bajo NDA, señaló Quinn, pero el más reciente en unirse lo hizo públicamente, y ese es TikTok. Como puede imaginar, una plataforma popular como esa tiene una gran necesidad de moderación rápida y precisa.

De hecho, es una especie de crisis, ya que están entrando en juego leyes que penalizan a las empresas con enormes cantidades si no eliminan rápidamente el contenido ofensivo. Ese tipo de amenaza realmente afloja los hilos de la cartera; Si una multa puede ser de decenas de millones de dólares, pagar una fracción significativa de eso por un servicio como el de Hatebase es una buena inversión.

“Estos grandes ecosistemas en línea necesitan sacar estas cosas de sus plataformas y necesitan automatizar un cierto porcentaje de su moderación de contenido”, dijo Quinn. “Nunca pensamos que podremos deshacernos de la moderación humana, esa es una meta ridícula e inalcanzable; Lo que queremos hacer es ayudar a la automatización que ya existe. Cada vez es más poco realista que cada comunidad en línea bajo el sol vaya a construir su propia base de datos masiva de discurso de odio multilingüe, su propia IA. De la misma manera que las empresas ya no tienen su propio servidor de correo, usan Gmail, o no tienen salas de servidores, usan AWS; ese es nuestro modelo, nos llamamos discurso de odio como servicio. Alrededor de la mitad de nosotros amamos ese término, la otra mitad no, pero ese es realmente nuestro modelo”.

Los clientes comerciales de Hatebase han hecho que la empresa sea rentable desde el primer día, pero “no están rodando en efectivo de ninguna manera”.

“Éramos una organización sin fines de lucro hasta que nos escindimos, y no nos alejaremos de eso, pero queríamos ser autofinanciados”, dijo Quinn. Después de todo, confiar en la amabilidad de los extraños ricos no es forma de mantenerse en el negocio. La compañía está contratando e invirtiendo en su infraestructura, pero Quinn indicó que no están buscando impulsar el crecimiento ni nada por el estilo, solo asegurarse de que los trabajos que se necesitan hacer tengan a alguien que los haga.

Mientras tanto, parece claro para Quinn y para todos los demás que este tipo de información tiene un valor real, aunque rara vez es simple.

“Es realmente, es un problema realmente complicado. Siempre lidiamos con eso, ya sabes, en términos de, bueno, ¿qué papel juega el discurso de odio? ¿Qué papel juega la desinformación? ¿Qué papel juega la socioeconomía?” él dijo. “Hay un gran artículo que salió de la Universidad de Warwick, estudiaron la correlación entre el discurso de odio y la violencia contra los inmigrantes en Alemania entre, quiero decir, 2015 a 2017. Lo grafican. Y su pico por pico, ya sabes, válido para Valle. Es asombroso. No hacemos muchos análisis, somos un proveedor de datos”.

“Pero ahora tenemos como casi 300 universidades extrayendo los datos, y hacen ese tipo de análisis. Así que eso es muy validador para nosotros”.

Puede Más información sobre Base de odio, únete a los lingüistas ciudadanos o asociación de investigación, o ver avistamientos recientes y actualizaciones de la base de datos en el sitio web de la empresa.


Source link