Konfigurasjonsfeil: én Cloudflare-fil tok ned store tjenester

18. november viste det seg at et omfattende internettutfall hadde én overraskende kilde: en enkelt feilutformet fil på Cloudflares servere. Da filen uventet ble dobbelt så stor, utløste den en kjede av tekniske feil som tok ned flere store nettjenester, blant dem X, OpenAI og enkelte avdelinger i McDonald’s. Cloudflare kom med en formell beklagelse, og medgründer Matthew Prince opplyste i et blogginnlegg at ingeniørene først mistenkte et cyberangrep – særlig fordi Microsoft samme dag rapporterte et stort DDoS-angrep – men at årsaken senere viste seg å være en konfigurasjonsfeil. At én fil kan skape så omfattende forstyrrelser, sier sitt om hvor tett sammenkoblet dagens infrastruktur er.

Prince presiserte at hendelsen verken direkte eller indirekte skyldtes et cyberangrep eller ondsinnet aktivitet. Den oppsto etter en endring i tilgangsrettigheter i et av selskapets databasesystemer. Endringen gjorde at databasen skrev flere oppføringer inn i funksjonsfilen som brukes av Cloudflares bot-håndteringssystem. Dermed ble filen dobbelt så stor og ble deretter distribuert til alle maskiner i nettverket. En tilsynelatende liten glipp i tilgangsstyringen fikk dermed uforholdsmessig stor rekkevidde.

Filen ble lastet opp klokken 11.05 UTC, men de første feilene dukket ikke opp før 23 minutter senere. Etter hvert som den spredte seg, rullet feilen gjennom nettverket og toppet seg rundt klokken 13.00. Ingeniørene identifiserte og rettet problemet klokken 14.30, og klokken 17.06 UTC var tjenestene tilbake i normal drift. Tidslinjen illustrerer hvor raskt konfigurasjonsendringer kan forplante seg – og hvor lang tid det kan ta å rulle dem tilbake.