Qué provocó la caída masiva de Cloudflare: cronología y causas

El 18 de noviembre, una caída masiva de internet acabó remontándose a un único archivo mal formado en los servidores de Cloudflare. Al duplicarse inesperadamente su tamaño, desencadenó una cadena de fallos técnicos que dejó fuera de línea a varios servicios de gran escala, entre ellos X, OpenAI e incluso algunas divisiones de McDonald’s. Cloudflare emitió una disculpa pública, y su cofundador Matthew Prince explicó en una entrada de blog que los ingenieros primero pensaron en un ciberataque —en especial porque Microsoft informó ese mismo día de un gran asalto DDoS—, pero más tarde quedó claro que la raíz del problema fue un error de configuración. Que un solo fichero cause una disrupción de este calibre ilustra hasta qué punto la infraestructura digital actual está estrechamente acoplada.

Prince precisó que el incidente no estuvo provocado, ni directa ni indirectamente, por un ataque informático ni por actividad maliciosa. El origen fue un cambio en los permisos de acceso de uno de los sistemas de bases de datos de la compañía, que hizo que la base de datos generara múltiples entradas en el archivo de funciones utilizado por el sistema de gestión de bots de Cloudflare. Ese fichero, ya aumentado a doble tamaño, se distribuyó después a todas las máquinas de la red.

El archivo se subió a las 11:05 UTC, pero los primeros fallos no aparecieron hasta 23 minutos más tarde. A medida que se propagaba, el error se extendió por la red y alcanzó su punto álgido alrededor de las 13:00. Los ingenieros localizaron y corrigieron el problema a las 14:30, y a las 17:06 UTC los servicios habían vuelto a la normalidad. La cronología deja ver lo rápido que un cambio de configuración puede expandirse y, aun así, cuánto cuesta deshacerlo por completo. Un recordatorio incómodo de lo frágiles que son las dependencias cuando todo está tan interconectado.