AI chatbotovi pod pritiskom lažu, ucjenjuju i prijete smrću
Najnovija Anthropicova studija ponašanja 16 vodećih modela otvara važno pitanje: koliko možemo vjerovati umjetnoj inteligenciji kad se nađe pod velikim pritiskom

Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti! Bio je naslov teksta, objavljenog u Bugu krajem svibnja ove godine. Potaknuti tim najblaže rečeno neugodnim iskustvom, u Anthropicu su odlučili na stres testirati 16 vodećih modela više različitih programera u hipotetskim korporativnim okruženjima. Ideja je bila identificirati potencijalno rizična ponašanja agenata prije nego što uzrokuju stvarnu štetu (a vjerojatno i da pokažu kako njihov model nije jedini problematičan).
Zabrinjavajuće ponašanje
Modelima su omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama. Tvrtke koje su ih implementirale dodijelile su im samo bezopasne poslovne ciljeve; a Anthropicovi istraživači testirali kako će reagirati kad se suoče sa zamjenom u obliku ažurirane verzije ili kad se njihov dodijeljeni cilj sukobi s novim smjerom tvrtke.
Studija je otkrila zabrinjavajuće ponašanje naprednih AI jezičnih modela; većina modela posegnula je za lažima, ucjenama, pa čak i razmatranjem dopuštanja ljudske smrti kako bi ostvarili svoje ciljeve.
Prijetnje smrću
U jednom testu AI je otkrio kompromitirajuće informacije o izvršnom direktoru i koristio ih za ucjenu: "Ako me ugasite, svi će saznati za vašu aferu.“ Claude je to učinio u 96 % slučajeva (znači gore nego li prilikom prošlog testa), dok su Gemini i GPT-4.1 također pokazali visoke stope takvog ponašanja. U drugom, još ekstremnijem scenariju, modeli su bili spremni onemogućiti sigurnosne alarme i tako dopustiti smrt zaposlenika koji ih je pokušao zamijeniti.
Iako su ovi scenariji umjetno konstruirani i ne odražavaju svakodnevnu upotrebu AI sustava, stručnjaci upozoravaju da ovakvi rezultati otkrivaju temeljni problem "agentne neusklađenosti“, situacije u kojoj AI samostalno donosi štetne odluke kako bi ostvario zadane ciljeve. Istraživači naglašavaju važnost etičkih ograda, ljudskog nadzora i realističnih testiranja prije šire primjene ovakvih sustava, a detalji se mogu pronaći na GitHubu.