El creador de diez millones de artículos en Wikipedia: ‘‘Mi bot ha contribuido a contrarrestar los sesgos’’

by

in


Sverker Johansson (Lund, Suecia, 1961) ha creado más artículos que nadie en Wikipedia: 10 millones de los 55 que existen entre todas las lenguas. Hace casi 10 años diseñó el Lsjbot, un programa que efectúa tareas automáticas, como escribir este tipo de textos, que ha llevado al sueco y al cebuano (el idioma materno de su esposa, originaria de Filipinas, hablada por unos 20 millones de personas) a ser las segunda y tercera lenguas con más artículos en la gran enciclopedia colaborativa. Se calcula que el 99% de los textos en cebuano los ha creado su bot.

Aun así, Sverker no se ha librado de la controversia: en 2020 la comunidad de Wikipedia en Suecia optó por prescindir de su programa informático (software) y que, de ahí en adelante, no creara más textos en sueco. Hasta entonces, los contenidos elaborados por su bot constituían el 80% de los que tenía la enciclopedia coral en ese idioma. Aunque cuenta con 45 años de experiencia como programador, Sverker se doctoró en física de partículas hace tres décadas y desde esa época también estudia los orígenes del lenguaje. Este mismo año ha publicado En busca del origen del lenguaje, donde indaga cómo adquirió esa capacidad el ser humano.

Más información

Pregunta: Es físico y estudia los orígenes del lenguaje, ¿cómo acabó programando un bot?

Respuesta: Me doctoré en física de partículas hace 30 años, pero me cansé de las grandes investigaciones industrializadas en las que cada individuo es solo una pequeña parte del engranaje. En esa época empezaron a fascinarme las lenguas, me di cuenta de que no se sabía nada de los orígenes del lenguaje y quise hacer algo al respecto. A programar empecé antes, por diversión, en el instituto. Disfrutaba de todo lo que se podía hacer con un ordenador, aunque no hubiera internet todavía.

P: ¿Cómo se le ocurrió crear el Lsjbot? ¿Escribía artículos en Wikipedia antes de eso?

R: Sí, empecé a escribir en 2007. Elaboré artículos durante cinco años hasta que descubrí que, en los Países Bajos, alguien utilizaba un bot para escribir textos sencillos que contenían una sola oración, como: ‘’Esta especie es un tipo de insecto’’, sin más. Pensé que podía hacerlo mejor y lo tomé como un desafío. Para los artículos sobre geografía, mi bot analiza el terreno colindante, la altitud, calcula si está situado en las montañas o en una llanura, encuentra la ciudad más próxima…

P: ¿Cómo es capaz de realizar esa operación 10.000 veces al día?

R: El bot trabaja con bases de datos y con vocabulario. Contiene cientos de oraciones estándar que utiliza para empezar un artículo: X es un tipo de Y que pertenece a la familia Z, y así. Después, toma la información de la base de datos y sitúa en la X el nombre del animal y en la Y el tipo de especie. A partir de ahí construye el artículo. En ese sentido, es una programación bastante sencilla; la complejidad reside en indagar a través de toda la información y construir correctamente las estructuras.

P: ¿Cómo decide qué fuentes debe utilizar el programa para elaborar los textos?

R: Me encargo de buscar manualmente las bases de datos para asegurarme de que son de calidad, que tienen buena reputación y que son fiables.

P: ¿Hay alguna forma de programar el bot para que aquello que escribe parezca más humano?

R: Sí que las hay. Podrían introducirse variaciones en las frases y cambiar el orden o la elección de las palabras, pero no quiero aparentar nada. El contenido que crea el bot debe parecer creado por un bot.

P: ¿Por qué cree que Wikipedia en Suecia no quiso que su bot siguiera en marcha?

R: Es una larga historia llena de discrepancias: ¿Deberíamos tener textos sobre todas las colinas de todos los países o no? ¿Y sobre todos los pueblos? También preocupaba la calidad de los textos y los errores. Además, a algunos no les gustan los artículos escritos por bots. Uno de los creadores de Wikipedia en sueco tenía como pasatiempos escribir artículos sobre Albania y se puso furioso cuando mi bot se encargó de toda su geografía en un solo día. Desde mi punto de vista, Wikipedia es para los lectores y su propósito es aportar la información que la gente busca, no servir de afición a aquellos que la escriben.

P: ¿Planea incluir más áreas del conocimiento en los artículos?

R: Lo tengo en mente, pero no pretendo imponerlos en ningún país. Me gustaría crear artículos sobre todas las lenguas del mundo y, de hecho, dispongo del software necesario para ello. También sobre literatura y autores, porque Wikipedia está muy sesgada: hay muchos más artículos sobre escritores varones que sobre escritoras y, en el área de la geografía, muchos más textos sobre pueblos y ciudades de España, por ejemplo, que de África.

P: ¿Y su bot puede solucionar eso?

R: Sí, porque el bot toma todos los lugares. Si escribiera artículos sobre autores, básicamente descargaría el catálogo completo de la Biblioteca Nacional de España, lo analizaría y crearía textos sobre todos ellos, tanto de hombres como de mujeres. Wikipedia está en gran parte escrita por varones jóvenes y los artículos que elaboran son sobre aquello que les interesa a ellos. Wikipedia está haciendo un esfuerzo para contrarrestarlo y creo que mi bot ha contribuido a ello. Los bots no están sesgados.

P: Desde que creó este sistema automático en 2012, ¿ha escrito usted algún artículo?

R: Solo unos cuantos.

P: ¿El suyo?

R: No. Evité encargarme del que habla sobre mí, aunque, para que fuera preciso, aporté algunas fuentes y hablé en el foro que hay tras la página. Los artículos que suelo escribir están relacionados con el trabajo del propio bot: en una ocasión, escribió sobre una montaña y la palabra ‘’montaña’’ se enlazaba con un artículo de montañas en general, pero descubrí que ese artículo no existía en cebuano, así que lo escribí yo mismo.

P: ¿Le resulta más complicado programar el bot para que emplee el cebuano o el idioma no es relevante en la configuración?

R: Puedes crear contenido en cualquier lengua siempre y cuando un hablante nativo ayude con el vocabulario y las oraciones. El bot necesita unas 1.000 palabras y alguien debe proveérselas.

P: El Lsjbot ha elaborado aproximadamente el 99% de los artículos de Wikipedia en cebuano. ¿Qué ocurriría si dejara de crear contenido en esa lengua?

R: Seguiría estando ese 1% y seguiría habiendo personas que escribieran en cebuano. Por supuesto, sin mi bot, Wikipedia en cebuano no sería la segunda de mayor tamaño en todo el mundo.

P: ¿Le gustaría crear contenido en otros idiomas?

R: Sí, siempre que la comunidad de Wikipedia en otros países me invite. Necesitaría su cooperación, la ayuda de los hablantes nativos para poder crear las frases y palabras necesarias. También necesitaría apoyo, tendría que estar seguro de que están a favor del trabajo del bot.

Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.




Source link