Cloudflare erklärt Ausfall: Fehlkonfiguration statt Angriff

Am 18. November legte eine weitreichende Internetstörung Teile des Netzes lahm – ausgelöst von einer einzigen fehlerhaft aufgebauten Datei auf den Servern von Cloudflare. Als sich ihre Größe unerwartet verdoppelte, löste das eine Kette technischer Ausfälle aus und riss mehrere große Webdienste vom Netz, darunter X, OpenAI und sogar einige Bereiche von McDonald’s. Cloudflare entschuldigte sich offiziell, und Mitgründer Matthew Prince schrieb in einem Blogbeitrag, die Ingenieurteams hätten zunächst einen Cyberangriff vermutet – zumal Microsoft am selben Tag einen massiven DDoS-Angriff meldete –, später habe sich jedoch eine Fehlkonfiguration als Ursache herausgestellt. Dass eine einzige Datei so viel auslösen konnte, zeigt, wie eng moderne Infrastruktur inzwischen verschaltet ist – und wie wenig Puffer bleibt, wenn zentrale Bausteine aus dem Tritt geraten.

Prince erläuterte, dass der Vorfall weder direkt noch indirekt auf einen Cyberangriff oder böswillige Aktivitäten zurückging. Auslöser sei eine Änderung der Zugriffsrechte in einem der Datenbanksysteme des Unternehmens gewesen. In der Folge lieferte die Datenbank mehrfach Einträge in die „functions file“, die Cloudflares Bot-Management nutzt. Die Datei verdoppelte dadurch ihre Größe und wurde anschließend auf alle Maschinen im Netzwerk verteilt.

Die Datei wurde um 11:05 UTC hochgeladen, erste Störungen zeigten sich jedoch erst 23 Minuten später. Während sie sich verbreitete, griff der Fehler auf das Netzwerk über und erreichte gegen 13:00 UTC seinen Höhepunkt. Die Techniker identifizierten und korrigierten das Problem um 14:30 UTC; bis 17:06 UTC liefen die Dienste wieder normal. Die Abfolge macht deutlich, wie rasch Konfigurationsänderungen nach außen wellen – und wie lange es dauern kann, ihre Folgen vollständig zurückzudrehen.