“A ti te hará gracia, pero a mí me afectó casi en un 70% de mis comunicaciones”, comentaba este martes un dentista que prefiere no dar su identidad a un ingeniero consultado por este periódico. “De 40 años para abajo ya no llama nadie, te mandan una foto y te dicen mira cómo tengo la muela”, añade.
La caída total de WhatsApp, Instagram, Facebook, Messenger y los servicios de realidad virtual de Oculus durante seis horas este lunes provocó incertidumbre y problemas de distinta gravedad en los cientos de millones de usuarios cuyas vidas y entretenimiento dependen en cierta medida en la fiabilidad de sus aplicaciones.
Los usuarios sufrieron un parón en sus comunicaciones, pero también fue un desafío para los anunciantes y sus ingresos. Marc Elena, fundador de Adsmurai, uno de los mayores gestores de anuncios en Facebook e Instagram de España, está sin embargo poco preocupado por la caída. “La robustez de Facebook como plataforma aguanta una caída como esta, casi sin pestañear”, dice. “Lógicamente notamos la parada, pero es menos grave de lo que parece porque en lo que queda hasta fin de año hay tanto inventario que es fácil recuperar la publicidad perdida. Sería distinto si hubiera caído por ejemplo en Black Friday, pero un día normal nos afecta menos de lo que parece”, añade.
La explicación oficial de Facebook atribuye el hundimiento a un “cambio de configuración”. Este periódico ha consultado a cinco expertos en redes y todos coinciden: lo más probable es que estuviera causada por un error humano. “No me gustaría ser esa persona”, dice Joxean Koret, especialista en seguridad informática. “Es probable que sea un error del último que subió algo y metió el zanco. En lugar de cambiar lo que debía, debió modificar algo más. Y le dio a enter”, añade.
As our platforms are coming back online, we wanted to share some more information about today’s outage and what caused it. https://t.co/JkZnn2I37g
— Facebook Engineering (@fb_engineering) October 5, 2021
Cuando un usuario escribe facebook.com o su aplicación quiere consultar nuevas stories en Instagram, el móvil busca los servidores de la compañía. Aunque el proceso tiene algo de memoria, se va actualizando por si hay rutas mejores. Y en un momento determinado las señales en las carreteras de internet que marcaban el camino a “Facebook”, desaparecieron. Así, cientos de millones de señales zombis circulaban este lunes por internet a la espera de que alguien les aclarara cómo podían ir hasta la casa de facebook.com. Toda la red se vio afectada con embotellamientos y lentitud por dichos zombis.
“Es como si quiero ir a casa de un amigo que vive en otra ciudad, busco su dirección en las páginas amarillas y una vez tengo la dirección debo coger un mapa y buscar la ruta más conveniente”, explica Julien Gamba, investigador de Imdea Networks. Y la ruta no está por ninguna parte.
Aunque Facebook no ha dado más detalles, y desde fuera es imposible saber la causa específica, el consenso exterior es que Facebook dejó de existir en internet durante casi seis horas. “Lo más probable es un error humano. No creo que sea un ataque. Querían cambiar algo en la configuración y cambiaron por error demasiado o actualizaron el software y cambió la actualización por ello. Puede ser varias razones pero la causa básica es error humano”, dice Gamba.
Es plausible incluso que el problema original fuera una falta al picar texto o una mala elección de una instrucción o de cualquier otra función. Para complicarlo aún más, el desastre no estalla inmediatamente al pulsar enter, sino que se despliega lentamente por la red, con lo que es más difícil ir hacia atrás a buscar el lugar exacto donde está el error para arreglarlo. “Lo curioso es que no es instantáneo”, dice Gamba. “Cuando cambias tu ruta, las rutas previas están almacenadas durante minutos u horas y cuando expiran es cuando deben aparecer las nuevas y no están. Quizá cambiaron la configuración y tardó horas en pasar algo y en ese rato estaban a otras cosas”, añade. Es una explosión retardada.
La opción de que un ingeniero de Facebook en California pueda pulsar una tecla y reventar sin querer redes de comunicación usadas por más de 3.000 millones de seres humanos es alucinante. Y a eso se suma que la solución implicó ir a buscar a un equipo de especialistas para que fueran en coche a un centro de datos que la compañía tiene en Santa Clara, según informa el New York Times. En febrero de 2020 Facebook alquiló varios edificios en esa localidad californiana, a algo más de 20 kilómetros de su sede en Menlo Park. “Por la separación de roles en Facebook la gente que tiene conocimiento para arreglarlo no es la que tiene acceso físico. Tuvieron que ir allí”, explica Koret.
Un reportero del Times avanzó incluso que el acceso al espacio se había hecho con una sierra debido a que la empresa tenía caídos también los sistemas de comunicación internos y el funcionamiento de sus pases electrónicos. Pero no fue así. El reto para acceder fue con la seguridad del edificio.
need to issue a correction: the team dispatched to the Facebook site had issues getting in because of physical security but did not need to use a saw/ grinder.
echoes on sourcing side, it was my mistake and I own it. Apologies
— rat king (@MikeIsaac) October 5, 2021
¿Cómo de probable es que un drama de estas características ocurra? Bastante alta, aunque no en empresas del tamaño de Facebook. Los expertos en redes no marcarán el día en su calendario como una hecatombe especial. “Sin ser súper frecuente, si es algo que hemos visto bastantes veces, aunque no sea común para una empresa de esta magnitud”, dice David Barroso, fundador de CounterCraft.
La caída pone el foco en el extendido peor poco conocido protocolo que maneja las rutas de internet, llamado BGP (Border Gateway Protocol o “puerta de enlace frontera”) y que tiene sus orígenes en los inicios de internet como sistema hace 50 años. “Todos estos protocolos son de los años 70-80. Tenemos suerte de que son robustos y han ido evolucionando pero son la base de todo internet”, explica Barroso. “No estaban pensados para la internet de hoy y es muy difícil migrar a algo nuevo porque cómo te pones de acuerdo con todo el mundo. Estos protocolos todo el mundo los acepta porque están desde el principio. Quedan muchos años de estos protocolos, que tienen problemas de seguridad, de estabilidad, para una internet mucho más pequeña que hoy. No son perfectos pero no podemos quejarnos”, añade.
Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.