Ayer sucedió lo inimaginable: Facebook, Instagram y Whatsapp cayeron simultáneamente. Mientras todos estábamos sentados jugando con nuestros pulgares, preguntándonos cómo podríamos interactuar con amigos, familiares y personas que no habíamos visto desde la escuela secundaria, los ingenieros detrás de los servidores de Facebook estaban alborotados. Entonces, ¿qué pasó realmente?
La información que tenemos actualmente es un resultado acumulativo de filtraciones de personas que afirman ser «conocedores», un breve y ambiguo entrada en el blog publicado por el propio Facebook, y un brillante artículo de CloudFare, una empresa de infraestructura web.
Para los forasteros, Facebook parecía haber desaparecido de Internet. Los usuarios recibían un error al intentar acceder al sitio web y los servidores eran completamente inaccesibles. Para una empresa bien establecida como Facebook, esto es algo extremadamente raro. Ahora sabemos que este tiempo de inactividad fue el resultado de un cambio de configuración en la columna vertebral de los enrutadores de Facebook, que envían y reciben datos a través de las redes. Se interrumpió la comunicación entre los centros de datos y se interrumpieron todos sus servicios. Esto se vio agravado por un error lamentablemente cronometrado en los lectores de tarjetas del edificio, que supuestamente impidió que los empleados accedan al edificio y solucionen el problema.
Vamos a sumergirnos en la línea de tiempo y descubrir qué salió mal, al menos en el exterior. Facebook, como cualquier otro sitio web en Internet, se basa en la publicidad para atraer a la gente a su sitio web. Para hacer esto, Internet usa Protocolo de puerta de enlace fronteriza (BGP). BGP es un mecanismo que decide las rutas que tomarán los datos a través de Internet, al igual que un servicio postal decide cómo llegará su correo a otro país. Sin BGP, Internet se cae ya que controla cómo se comunican todos los datos a través de las redes.
Otra parte integral de Internet es el Sistema de nombres de dominio (DNS). DNS son las páginas amarillas de Internet; traduce complicados sistemas de numeración en algo que podemos leer y reconocer. Por ejemplo, Internet dice «66.220.144.0» (entre otros), pero leemos «www.facebook.com» porque los servidores DNS lo tradujeron amablemente; de lo contrario, Internet sería un revoltijo ininteligible de números.
La forma en que trabajan juntos es la siguiente: si busca ‘Facebook’ en Google, se mostrará ‘www.facebook.com’ al usuario. Ttu era traducido a un nombre de dominio de una dirección IP por DNS servidores, todo lo que BGP reenvió a través de Internet, lo que les permite anunciar su sitio. Hay muchas siglas, lo sé.
De vuelta a la interrupción de Facebook. Cuando se cambió la configuración en los servidores de Facebook, Facebook dejó de anunciar sus rutas a sus servidores DNS, lo que indica que había un problema con BGP. Algunas direcciones IP de Facebook todavía funcionaban, pero sin servidores DNS para traducirlas, eran esencialmente inútiles. Hasta donde sabemos hoy, Facebook derribó su propio sistema BGP, retirándose completamente de Internet.
Solo empeoró a partir de entonces. Mientras los ingenieros intentaban llegar a los centros de datos y arreglarlos, parecía que habían perdido el acceso. Mire, cuando deslizan sus tarjetas para obtener acceso a los edificios de Facebook, el sistema de reconocimiento ejecuta la tarjeta a través de los propios servidores de Facebook para permitir la entrada. Los servidores de Facebook estaban caídos, lo que impedía que los ingenieros ingresaran al edificio para permitirles reparar.
«Como muchos de ustedes saben, el DNS para los servicios de FB se ha visto afectado y esto probablemente sea un síntoma del problema real, y es que el emparejamiento de BGP con los enrutadores de emparejamiento de Facebook ha disminuido, probablemente debido a un cambio de configuración que entró en vigencia en breve. antes de que ocurrieran las interrupciones (comenzaron alrededor de las 15:40 UTC), » escribió un supuesto informante de Facebook en Reddit, antes de eliminar la publicación.
«Hay personas que ahora intentan acceder a enrutadores de intercambio de tráfico para implementar soluciones, pero las personas con acceso físico están separadas de las personas que saben cómo autenticarse en los sistemas y las personas que saben qué hacer realmente, por lo que ahora existe un desafío logístico para unifica todo ese conocimiento «.
Horas más tarde, se restauró la actividad de BGP y los servidores DNS comenzaron a resolver las direcciones IP en nombres de dominio una vez más. Los servidores de Facebook estuvieron inactivos durante aproximadamente seis horas, pero el dolor de cabeza para los empleados seguramente durará mucho más.