Si hay algo en internet que se acerque a contener el saber universal es la Wikipedia. En la era pre digital el saber equiparable y accesible desde casa estaba en enciclopedias. La diferencia en tamaño es sin embargo astronómica. Jaime Crespo, ingeniero informático y miembro del equipo de la Fundación Wikimedia que se encarga de la persistencia de sus sistemas, ha hecho un cálculo aproximado del peso en terabytes de todos los proyectos de su organización, de los que la Wikipedia es el principal.
A finales de septiembre le salieron 500 y 600 terabytes, incluyendo las imágenes. Un disco duro de 10 terabytes pesa 850 gramos, y un terabyte equivale aproximadamente a 500 horas de vídeo en alta definción. El contenido completo de la Wikipedia cabría por tanto en unos 50 kilos de discos duros. “Si pusiéramos el contendido en un solo fichero, sería eso, en 300 idiomas y todos los proyectos”, dice Crespo, de 38 años y que trabaja en remoto desde Logroño, donde nació.
Este cálculo sirve a modo de ilustración, pero tendría varios problemas técnicos. Ese peso no incluiría la Wikipedia en un formato fácil de buscar ni organizado: “Parece poco porque en texto plano tampoco es tanto, junto a las imágenes”, dice Crespo por videoconferencia a EL PAIS. “Pero para servir esa información, necesitas muchísimo más espacio”, añade. Si tuviéramos solo esos discos en casa en formato texto y quisiéramos buscar una palabra, tardaría horas en devolver el resultado. “No tendrías las mismas funciones que en internet. Igual tardarías 2 horas en encontrar lo que buscas. Tendrías que buscar de arriba abajo todo. Las bases de datos organizan información de forma que pidas un artículo y en milisegundos lo tengas”, explica Crespo, que hizo su cálculo para una conferencia de la Asociación española de Python, un lenguaje de programación.
A pesar de estas carencias técnicas, la comparación sirve para entender la inimaginable diferencia entre las enciclopedias Larousse de los hogares del siglo XX y la Wikipedia. ¿Cómo podíamos pensar que aquellas enciclopedias fueran ”universales”? “Además, somos los primeros en decir que no tenemos casi nada del conocimiento humano”, explica Crespo. “Nos fastidia muchas veces que un pueblo pequeño de España tenga solo 4 párrafos cuando podría tener muchos más”.
Para completar la analogía, un artista estadounidense pretendió imprimir solo la Wikipedia en inglés. Le salieron 7.473 volúmenes.
La Wikipedia hoy es mucho más que la enciclopedia de antaño, pero su uso no es tan distinto. En la Wikipedia en español, en septiembre dos de las tres palabras más buscadas fueron “Cleopatra” y “tabla periódica de los elementos”, que tienen toda la pinta de estar vinculadas a estudiantes. La segunda es “El juego del calamar”, la serie de Netflix. La Wikipedia combina búsquedas tradicionales con temas de actualidad.
Hace unas décadas, algún personaje especialmente dedicado podía pretender leer “todo” el conocimiento universal. Incluso Crespo hizo sus intentos: “Me encantaba cuando era pequeño sacar la enciclopedia y leerme trozos y aprender cosas, quizá por eso he terminado trabajando aquí”, dice. Pero hoy eso sería imposible, es apabullante: “Wikipedia es un agujero negro de conocimiento porque te atrae y no termina nunca, siempre hay algo más, sería imposible leerla para un humano por la velocidad a la que se añade la información”, añade.
La experiencia de Crespo sirve también para entender algo más el funcionamiento de la nube. La Fundación Wikimedia tiene sus propios almacenes de datos, desvinculados de las grandes tecnológicas: “Somos un poco especiales pero va en la consonancia de la filosofía que tenemos de privacidad y transparencia”, dice Crespo. “Las empresas trabajan con otras nubes, pero nosotros queremos tener el control sobre los datos porque no queremos que nadie acceda a datos privados o pueda hacer estadísticas. Eso significa gestionar nuestras propias máquinas. Tenemos una sala dentro de centros de datos más grandes que tiene una llave y solo nosotros podemos entrar ahí”, explica.
Wikipedia es la página número 14 entre las más visitadas del mundo, según datos de Alexa. Eso significa, según Crespo, ”medio millón de consultas por segundo”, de las que un tercio aproximadamente son para la Wikipedia en inglés. El tamaño del resto de páginas principales es mucho mayor que la Wikipedia.
Una parte central del trabajo de Crespo es mantener vivas las copias de seguridad de la Wikipedia. Un problema de los ingenieros encargados de conservar datos o conocimiento es pensar a años vista, lo que en tecnología es complejo. Crespo debe tener en cuenta que su copia de seguridad pueda ser accesible en 2027 o más allá. “Tengo mucho cuidado de emplear tecnologías que tengan futuro de aquí a 5 años. Podría ser que cinco años después la forma en que algo se ha cifrado no tenga su manual”, dice. “Los lenguajes y las aplicaciones también pueden influir, pero siempre uso formatos muy portables. Si hoy desapareciera la tecnología de base de datos que usamos nos costaría poco migrar a otra porque lo tenemos en texto comprimido, que es un formato estándar”.
Wikipedia es un 99% información abierta, dice Crespo. Procuran también tener poca información privada porque no tenerla es el mejor modo de evitar filtraciones o pérdidas. Aún así los editores que vigilan cambios en páginas o que vandalizan otras es información delicada. De ahí los cifrados. “La mayoría de los datos son públicos. Aparte de nuestras copias de seguridad que contienen actividad de los usuarios, publicamos en una página de exports con un archivo de todos nuestros artículos para que la gente se lo pueda bajar. Si desapareciera nuestra organización, el público tiene una copia para reconstruirlo. Incluso hay una copia en la Luna”, dice.
Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.