AWS otkrio detalje: Greška u automatizaciji uzrokovala masovni pad sustava
Amazon je detaljno objasnio kako je greška u automatiziranom softveru dovela do višesatnog prekida rada, pogađajući njihove brojne korisnike
Nakon višesatnog prekida rada koji je ovog tjedna paralizirao tisuće web stranica i aplikacija, Amazon Web Services (AWS) je otkrio uzrok problema. Kako navodi The Guardian, nije se radilo o hakerskom napadu, već o latentnoj grešci unutar vlastitog softvera za automatizaciju koja je pokrenula kaskadni niz problema.
U detaljnom izvješću objavljenom u četvrtak, AWS je pojasnio da je problem započeo u njihovom DynamoDB sustavu baza podataka. Korisnici se nisu mogli spojiti na uslugu zbog "latentnog defekta unutar automatiziranog sustava za upravljanje DNS-om (Domain Name System)". DynamoDB, naime, koristi automatizaciju za stalno praćenje i ažuriranje stotina tisuća DNS zapisa kako bi osigurao dodavanje kapaciteta, upravljao kvarovima hardvera i učinkovito distribuirao promet.
Korijen problema bio je prazan DNS zapis unutar podatkovnog centra US-East-1 u Virginiji. Bug je uzrokovao da sustav za automatsko popravljanje greške zakaže, zbog čega je bila potrebna ručna intervencija operatera kako bi se problem ispravio. Kao mjeru predostrožnosti, AWS je privremeno onemogućio sporne alate za automatizaciju DNS-a na globalnoj razini dok ne implementiraju dodatne zaštitne mehanizme.
Posljedice su bile dalekosežne. Platforme poput Signala, Snapchata, Robloxa i Duolinga bile su nedostupne, a problem je pogodio i bankarske usluge te pametne uređaje poput Ring portafona. Prema Downdetectoru, stranici koja prati ispade internetskih usluga, zabilježeno je više od 8,1 milijuna prijava problema od strane korisnika diljem svijeta.
Koliko je utjecaj bio širok, možda najbolje ilustrira bizarni primjer tvrtke Eight Sleep, proizvođača pametnih kreveta. Njihovi korisnici tijekom prekida nisu mogli putem aplikacije na telefonu podesiti temperaturu ili nagib kreveta, jer se aplikacija nije mogla spojiti na AWS servere. Izvršni direktor tvrtke ispričao se korisnicima i najavio ažuriranje koje će omogućiti upravljanje ključnim funkcijama kreveta putem Bluetootha u slučaju budućih ispada.
Ovaj događaj ponovno je otvorio raspravu o centralizaciji interneta. Dr. Suelette Dreyfus s Sveučilišta u Melbourneu ističe kako ovakvi ispadi pokazuju koliko je svijet postao ovisan o svega nekoliko točaka oslonca. "Ta jedna točka nije samo AWS – oni su najveći cloud provider s oko 30% tržišta – već cloud kao cjelina, što su u suštini samo tri tvrtke", izjavila je. "Internet je dizajniran da bude otporan, no izgubili smo dio te otpornosti jer smo postali ovisni o šačici tehnoloških divova."