Blackout Cloudflare: un file malformato ha messo offline X, OpenAI e altri servizi
Un errore di configurazione su Cloudflare, causato da un file malformato, ha scatenato un blackout di rete, mettendo offline X, OpenAI e altri grandi servizi.
Un errore di configurazione su Cloudflare, causato da un file malformato, ha scatenato un blackout di rete, mettendo offline X, OpenAI e altri grandi servizi.
© Pepelac News
Il 18 novembre, un vasto blackout della rete è risultato riconducibile a un unico file formattato in modo errato sui server di Cloudflare. Quando le sue dimensioni sono raddoppiate all’improvviso, ha innescato una catena di guasti tecnici e ha mandato offline diversi grandi servizi web, tra cui X, OpenAI e perfino alcune divisioni di McDonald’s. Cloudflare ha presentato scuse formali e il cofondatore Matthew Prince ha fatto sapere in un post sul blog che gli ingegneri, inizialmente, avevano ipotizzato un attacco informatico — anche perché Microsoft, lo stesso giorno, segnalava un attacco DDoS di forte entità — ma in seguito la causa si è rivelata un errore di configurazione. Che un solo file sia bastato a generare un simile disservizio dice molto su quanto l’infrastruttura digitale di oggi sia strettamente interconnessa: un promemoria scomodo della fragilità nascosta dietro piattaforme che di solito diamo per scontate.
Prince ha precisato che l’incidente non è stato provocato, né direttamente né indirettamente, da un attacco informatico o da attività malevole. È scaturito da una modifica ai permessi di accesso in uno dei sistemi di database dell’azienda, che ha portato il database a scrivere più voci del dovuto nel file delle funzioni utilizzato dal sistema di gestione dei bot di Cloudflare. Quel file, di conseguenza, ha raddoppiato le dimensioni ed è stato propagato su tutte le macchine della rete. Un dettaglio tecnico, all’apparenza minore, con effetti a cascata.
Il file è stato caricato alle 11:05 UTC, ma i primi malfunzionamenti sono comparsi solo 23 minuti dopo. Con la propagazione, l’errore si è esteso alla rete fino a raggiungere il picco intorno alle 13:00. Gli ingegneri hanno individuato e corretto il problema alle 14:30 e, alle 17:06 UTC, i servizi erano tornati alla normalità. Una sequenza che rende l’idea di quanto in fretta le modifiche di configurazione possano diffondersi e di quanto, invece, occorra tempo per riassorbirne gli effetti.