Jak jeden plik i błąd konfiguracji wywołały globalną awarię Cloudflare
18 listopada awaria Cloudflare sparaliżowała X, OpenAI i inne usługi. Winny był błędnie sformatowany plik oraz błąd konfiguracji. Szczegóły i oś czasu.
18 listopada awaria Cloudflare sparaliżowała X, OpenAI i inne usługi. Winny był błędnie sformatowany plik oraz błąd konfiguracji. Szczegóły i oś czasu.
© Pepelac News
18 listopada szeroko zakrojona awaria internetu okazała się mieć zaskakująco prozaiczne źródło: pojedynczy, nieprawidłowo sformatowany plik na serwerach Cloudflare. Gdy jego rozmiar niespodziewanie się podwoił, uruchomiło to łańcuch błędów i wyłączyło z sieci kilka dużych usług, w tym X, OpenAI oraz niektóre działy McDonald’s. Firma wystosowała oficjalne przeprosiny, a współzałożyciel Matthew Prince przekazał na blogu, że inżynierowie początkowo skłaniali się ku hipotezie cyberataku — zwłaszcza że tego samego dnia Microsoft informował o poważnym ataku DDoS — jednak później potwierdzono błąd konfiguracji. Trudno o bardziej wymowne przypomnienie, jak ciasno spięta jest dziś globalna infrastruktura.
Prince wyjaśnił, że incydent nie był skutkiem cyberataku ani żadnej innej złośliwej aktywności, bezpośrednio czy pośrednio. Problemy wzięły się ze zmiany uprawnień dostępu w jednym z systemów bazodanowych, co sprawiło, że baza zaczęła zapisywać wielokrotne wpisy do „functions file” używanego przez system zarządzania botami Cloudflare. Plik w efekcie podwoił swój rozmiar i został rozesłany na wszystkie maszyny w sieci. Jeden niedopatrzony szczegół w konfiguracji okazał się wystarczający, by rozstroić mechanizm o skali globalnej.
Plik przesłano o 11:05 UTC, lecz pierwsze usterki pojawiły się dopiero 23 minuty później. W miarę propagacji błąd rozlewał się po sieci i szczytował około 13:00. Inżynierowie zidentyfikowali i skorygowali problem o 14:30, a do 17:06 UTC usługi wróciły do normy. Ten harmonogram dobitnie pokazuje, że zmiany konfiguracyjne potrafią rozchodzić się błyskawicznie — ale ich odkręcanie zajmuje już godziny.