L’interruzione di Cloudflare richiede le scuse del CTO

Martedì gran parte di Internet è diventata oscura dopo che un servizio critico Cloudflare è fallito, mettendo temporaneamente offline alcuni dei più grandi siti Web del mondo – tra cui X, ChatGPT, Perplexity, Spotify e Canva – lasciando milioni di persone a fissare messaggi di “errore interno del server”. Da allora l’azienda ha risolto il problema, ma non prima di interrompere il servizio di milioni di utenti in tutto il mondo.


L’interruzione ha lasciato milioni di persone a fissare messaggi di “errore interno del server”, scatenando confusione, meme e aggiornamenti frenetici. Ma Cloudflare ha presto confermato di avere a che fare con un guasto interno critico, non con un attacco informatico.

Il Chief Technology Officer (CTO) di Cloudflare, Dane Knecht, ha rilasciato le sue rare e schiette scuse poco dopo l’inizio della ripresa dei servizi, affermando che la società aveva “deluso i nostri clienti e Internet in generale”.


Un cambiamento di routine che ha innescato un tracollo globale

L’interruzione è iniziata intorno alle 11:48 UTC del 18 novembre, quando i sistemi di Cloudflare hanno iniziato a bloccarsi nel livello di mitigazione dei bot. Si tratta di un sistema di sicurezza in linea che controlla quotidianamente il traffico del sito Web per rilevare comportamenti sospetti.

Questi errori si sono rapidamente riversati su tutta la rete globale, influenzando tutto, dal caricamento del sito Web alle chiamate API e persino agli strumenti di sicurezza Access e WARP di Cloudflare.


Quella che avrebbe dovuto essere una semplice modifica alla configurazione ha invece rivelato un difetto dormiente sepolto nel profondo del sistema di mitigazione dei bot di Cloudflare.

“La trasparenza su ciò che è accaduto è importante e prevediamo di condividere un’analisi con maggiori dettagli tra poche ore. In breve, un bug latente in un servizio alla base della nostra capacità di mitigazione dei bot ha iniziato a bloccarsi dopo una modifica di routine della configurazione che abbiamo apportato. Ciò si è tradotto in un ampio degrado della nostra rete e di altri servizi. Non si è trattato di un attacco”, ha sottolineato Knecht.


Correzione implementata, ma alcune funzionalità sono rimaste lente

Gli ingegneri di Cloudflare hanno implementato una correzione alle 14:42 UTC e hanno iniziato a ripristinare i flussi di traffico. I siti sono tornati lentamente online, ma la società ha avvertito che gli strumenti di analisi, registro e dashboard avrebbero continuato a rimanere lenti. Nell’ambito dello sforzo di mitigazione, Cloudflare ha temporaneamente sospeso l’accesso WARP per gli utenti a Londra.

“È stata implementata una soluzione e riteniamo che l’incidente sia ora risolto. Stiamo continuando a monitorare gli errori per garantire che tutti i servizi tornino alla normalità”, ha affermato la società.

Continuiamo a riscontrare un miglioramento degli errori e della latenza, ma riceviamo ancora segnalazioni di errori intermittenti. Il team continua a monitorare la situazione man mano che migliora e cerca modi per accelerare il pieno recupero”.

Per ora, Cloudflare afferma che le cose sono tornate alla normalità. Tuttavia, l’interruzione sottolinea quanto vulnerabili anche le principali piattaforme cloud e di sicurezza rimangano vulnerabili a piccoli errori interni in grado di causare interruzioni diffuse.

Articoli correlati

Ultimi articoli