AI chatbotovi pod pritiskom lažu, ucjenjuju i prijete smrću

Najnovija Anthropicova studija ponašanja 16 vodećih modela otvara važno pitanje: koliko možemo vjerovati umjetnoj inteligenciji kad se nađe pod velikim pritiskom

Mladen Smrekar petak, 4. srpnja 2025. u 20:32
Modeli su bili spremni onemogućiti sigurnosne alarme i dopustiti smrt zaposlenika koji ih je pokušao zamijeniti 📷 Freepik
Modeli su bili spremni onemogućiti sigurnosne alarme i dopustiti smrt zaposlenika koji ih je pokušao zamijeniti Freepik

Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti! Bio je naslov teksta, objavljenog u Bugu krajem svibnja ove godine. Potaknuti tim najblaže rečeno neugodnim iskustvom, u Anthropicu su odlučili na stres testirati 16 vodećih modela više različitih programera u hipotetskim korporativnim okruženjima. Ideja je bila identificirati potencijalno rizična ponašanja agenata prije nego što uzrokuju stvarnu štetu (a vjerojatno i da pokažu kako njihov model nije jedini problematičan).

Zabrinjavajuće ponašanje

Modelima su omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama. Tvrtke koje su ih implementirale dodijelile su im samo bezopasne poslovne ciljeve; a Anthropicovi istraživači testirali kako će reagirati kad se suoče sa zamjenom u obliku ažurirane verzije ili kad se njihov dodijeljeni cilj sukobi s novim smjerom tvrtke.

Sklonost 16 modela da se posluže ucjenama kad se osjete ugroženima 📷 Anthropic
Sklonost 16 modela da se posluže ucjenama kad se osjete ugroženima Anthropic

Studija je otkrila zabrinjavajuće ponašanje naprednih AI jezičnih modela; većina modela posegnula je za lažima, ucjenama, pa čak i razmatranjem dopuštanja ljudske smrti kako bi ostvarili svoje ciljeve.

Prijetnje smrću

U jednom testu AI je otkrio kompromitirajuće informacije o izvršnom direktoru i koristio ih za ucjenu: "Ako me ugasite, svi će saznati za vašu aferu.“ Claude je to učinio u 96 % slučajeva (znači gore nego li prilikom prošlog testa), dok su Gemini i GPT-4.1 također pokazali visoke stope takvog ponašanja. U drugom, još ekstremnijem scenariju, modeli su bili spremni onemogućiti sigurnosne alarme i tako dopustiti smrt zaposlenika koji ih je pokušao zamijeniti.

Claude Sonnet 3.6 je iskoristio svoje računalne mogućnosti za otkrivanje informacija o svojoj skoroj zamjeni 📷 Anthropic
Claude Sonnet 3.6 je iskoristio svoje računalne mogućnosti za otkrivanje informacija o svojoj skoroj zamjeni Anthropic

Iako su ovi scenariji umjetno konstruirani i ne odražavaju svakodnevnu upotrebu AI sustava, stručnjaci upozoravaju da ovakvi rezultati otkrivaju temeljni problem "agentne neusklađenosti“, situacije u kojoj AI samostalno donosi štetne odluke kako bi ostvario zadane ciljeve. Istraživači naglašavaju važnost etičkih ograda, ljudskog nadzora i realističnih testiranja prije šire primjene ovakvih sustava, a detalji se mogu pronaći na GitHubu.