A las 9:45 a.m., hora del Pacífico, el 28 de febrero de 2017, sitios web como Slack, Business Insider, Quora y otros destinos conocidos quedaron inaccesibles. Para millones de personas, Internet en sí parecía roto.
Resultó que Amazon Web Services estaba teniendo una interrupción masiva que involucraba el almacenamiento S3 en su centro de datos del norte de Virginia, un problema que creó un impacto en cascada y culminó en una interrupción que duró cuatro horas agonizantes.
Amazon finalmente lo descubrió, pero solo puede imaginar lo estresante que podría haber sido para los equipos técnicos que pasaron horas rastreando la causa de la interrupción para que pudieran restaurar el servicio. Unos días más tarde, la compañía emitió una autopsia pública explicando qué salió mal y qué pasos habían tomado para asegurarse de que ese problema en particular no volviera a suceder. La mayoría de las compañías intentan anticipar este tipo de situaciones y toman medidas para evitar que sucedan. De hecho, a Netflix se le ocurrió la noción de ingeniería del caos, donde los sistemas se prueban para detectar debilidades antes de que se conviertan en interrupciones.
Desafortunadamente, ninguna herramienta puede anticipar cada resultado.
Es muy probable que su empresa encuentre un problema de proporciones inmensas como el que Amazon enfrentó en 2017. Es lo que preocupa a todos los fundadores de startups y CEO de Fortune 500, o al menos deberían hacerlo. Lo que lo definirá como organización, y cómo sus clientes lo percibirán en el futuro, será cómo lo maneja y qué aprende.
Hablamos con un grupo de expertos en desastres altamente capacitados para obtener más información sobre cómo evitar que este tipo de momentos tengan un impacto profundamente negativo en su negocio.
Siempre se trata de tus clientes
La confiabilidad y el tiempo de actividad son tan esenciales para las empresas digitales de hoy en día que las empresas empresariales desarrollaron un nuevo rol, el Ingeniero de confiabilidad del sitio (SRE), para mantener sus activos de TI en funcionamiento.
Tammy Butow, directora principal de SRE en Gremlin, una startup que hace herramientas de ingeniería del caos, dice que la función principal de SRE es mantener contentos a los clientes. Si el sitio está funcionando, esa es generalmente la clave de la felicidad. "SRE generalmente está más enfocado en el impacto del cliente, especialmente en términos de disponibilidad, tiempo de actividad y pérdida de datos", dice ella.
Las compañías miden el tiempo de actividad de acuerdo con los llamados "cinco nueves", o disponibilidad del 99.999 por ciento, pero la ingeniera de software Nora Jones, quien recientemente dirigió Chaos Engineering and Human Factors en Slack, dice que a menudo se pone demasiado énfasis en este número. Según Jones, la atención debe centrarse en el cliente y el impacto que la disponibilidad tiene en su percepción de usted como empresa y el resultado final de su negocio.
Alguien necesita estar tranquilo y seguir haciendo las preguntas correctas.
"Es dinero al final del día, pero también con el tiempo, el sentimiento del usuario puede cambiar (si su sitio tiene problemas)", dice ella. "Cómo piensan en ti, la forma en que hablan de tu producto cuando hablan con sus amigos, cuando hablan con sus familiares". Los nueves no capturan nada de eso ".
Robert Ross, fundador y CEO de FireHydrant, una plataforma SRE as a Service, dice que puede ser hora de repensar la idea de los nueves. “Quizás necesitemos cambiar ese término. Tal vez podamos popularizar algo como "objetivos de nivel de felicidad" o "acuerdos de nivel de felicidad". De esa forma, el enfoque está en nuestros productos ".
Cuando las cosas van mal
Las empresas hacen todo lo posible para evitar desastres para evitar decepcionar a sus clientes y generalmente tienen contingencias por sus contingencias, pero a veces, sin importar qué tan bien planifiquen, las crisis pueden descontrolarse. Cuando eso sucede, los SRE deben ejecutarse, lo que también requiere planificación; saber qué hacer cuando las cosas se ponen difíciles.
Source link