Cloudflare objasnio incident: jedna prevelika datoteka uzrokovala lančanu reakciju
Zbog interne pogreške u Bot Management sustavu, Cloudflare je ovoga utorka doživio višesatni prekid rada koji je pogodio brojne korisnike i servise diljem svijeta, a nije bio posljedica hakerskog napada
Globalni internetski servis Cloudflare očitovao se o jučerašnjem ispadu sustava, koji je doveo do lančane reakcije i "srušio pola Interneta". Na svojim su stranicama objavili detaljno objašnjenje incidenta od 18. studenog. Značajan prekid rada započeo je u 11:20 (po UTC vremenu) i rezultirao je nedostupnošću velikog broja internetskih stranica i aplikacija. Korisnici koji su pokušavali pristupiti stranicama dobivali su poruke o pogrešci, a iz tvrtke su izričito naglasili da problem nije bio uzrokovan nikakvom vrstom kibernetičkog napada ili zlonamjerne aktivnosti.
Nekoliko sati muke
Problem je potrajao nekoliko sati, a manifestirao se kroz takozvane "5xx greške", što ukazuje na probleme sa serverima. U Cloudflareu su isprva posumnjali na DDoS napad velikih razmjera, no istraga je pokazala da je uzrok ipak bio interni. Glavnina prometa normalizirana je do 14:30 (UTC), dok su svi sustavi u potpunosti profunkcionirali iza 17 sati.

Do prekida je, kažu, došlo zbog promjene u dozvolama jednog od sustava baza podataka, što je dovelo do generiranja neispravne konfiguracijske datoteke za sustav upravljanja botovima (Bot Management). Ta datoteka, koja se koristi za razlikovanje legitimnog od automatiziranog prometa, zbog pogreške se udvostručila. Softver zadužen za usmjeravanje prometa, koji koristi tu datoteku, imao je postavljeno ograničenje veličine koje je time premašeno, što je uzrokovalo njegovo rušenje i kaskadni pad brojnih stranica i aplikacija koje Cloudflare štiti – pa, ironijom sudbine, čak i sustava Downdetector, na koji mnogi odmah pohrle provjeriti o čemu je riječ kad neki od internetskih servisa padne.
Otežana detekcija uzroka
Dodatno je zanimljivo da se problem pojavljivao u intervalima od pet minuta, jer se konfiguracijska datoteka generirala periodično. Ovisno o tome koji je dio baze podataka obradio upit, datoteka je ponekad bila ispravna, a ponekad neispravna, što je dovodilo do fluktuacija u radu sustava i dodatno otežalo dijagnostiku problema.

Nakon što je identificiran osnovni uzrok, inženjeri Cloudflarea zaustavili su distribuciju neispravne datoteke i ručno je zamijenili prethodnom, ispravnom verzijom. To je omogućilo postupan oporavak sustava.
Matthew Prince, suosnivač i generalni izvršni direktor Cloudflarea, ispričao se korisnicima zbog problema, nazvavši ga najgorim prekidom rada tvrtke od 2019. godine. Najavio je korake za jačanje otpornosti sustava, otkrivši da planiraju uvesti strože kontrole za interno generirane konfiguracijske datoteke, omogućiti brže globalno isključivanje pojedinih funkcionalnosti te analizirati sve module kako bi se spriječili slični scenariji u budućnosti.