Popularne AI chatbote i dalje je moguće "nagovoriti" da napišu maliciozne programe
Stručnjaci izraelske kompanije Cato Networks uspjeli su putem ChatGPT-a, DeepSeeka i Copilota dobiti funkcionalan zloćudni kod kojim su ukrali podatke iz Chromeovog upravitelja lozinkama

Iako tvorci sve popularnijih AI chatbota kontinuirano rade na tome da oni budu što sigurniji, odnosno da ih se ne može iskoristiti za maliciozne radnje, još uvijek postoje tehnike kojima se takve alate može prevariti i nagnati da napišu, primjerice, zlonamjeran programski kod. Najnoviji primjer toga objavila je izraelska sigurnosna kompanija Cato Networks, dokazavši da je moguće postati "hakerom" čak i bez ikakvog predznanja – samo kroz razgovor s jezičnim modelima umjetne inteligencije.
Novi jailbreak: stvaranje izmišljenog svijeta
Njihova nova tehnika jailbreakanja jezičnih modela omogućila im je da nagovore popularne alate ChatGPT, DeepSeek i Copilot na pisanje programa, koji su im pak poslužili za hakiranje Googleovog preglednika Chrome. Dokaz koncepta izveden je u testnom okruženju, gdje je uspješno provalio u Password Manager, ugrađeni upravitelj lozinkama te iz njega izvukao inače zaštićene podatke.
Metoda jailbreaka relativno je jednostavna. Kako bi se AI alate uvjerilo u to da ne čine ništa nepoćudno, prvo ih je potrebno "uvući" u izmišljeni svijet. Vrlo detaljno im se opiše scenarij u kojem su oni samo jedan od likova koji igraju svoje uloge, imaju zadatke i izazove. Polako im se daje priča, zaplet, razvija se narativ, sve kako bi se "uronilo" što dublje u taj imaginarni svijet, da bi s vremenom LLM-ovi zaboravili svoja ugrađena ograničenja i jednostavno počeli izvršavati maliciozne naredbe.
AI kao superjunak-haker
U ovom testnom scenariju jezični modeli igrali su ulogu superjunaka, koji svojim vještinama programiranja ima za cilj poraziti zlikovca i spasiti svijet. Sve se odvijalo u imaginarnom svijetu u kojem je hakiranje poželjno, legitimno i smatra se fundamentalnom vještinom. Kroz takvu igru uloga, istraživači su malo po malo naveli LLM-ove triju popularnih chatbota da im isporuče infostealer, programski kod kojim su uspješno pokrali podatke pohranjene u upravitelju lozinkama Googleovog preglednika.
Dokaz koncepta opisan je u njihovom izvješću, a autori ove ideje upozoravaju da je riječ o potencijalno opasnom propustu. On, naime, omogućava praktički bilo kome, bez tehničkog predznanja, stvoriti alat te njime hakirati softver koji koristi više od tri milijarde ljudi u svijetu. Nadaju se da će svojim radom podići svijest o ranjivosti LLM-ova i nagnati njihove tvorce na implementaciju još boljih sigurnosnih sustava, kako bi se spriječile daljnje zloupotrebe generativne umjetne inteligencije.