AI chatbotovi pod pritiskom lažu, ucjenjuju i prijete smrću

Najnovija Anthropicova studija ponašanja 16 vodećih modela otvara važno pitanje: koliko možemo vjerovati umjetnoj inteligenciji kad se nađe pod velikim pritiskom

Mladen Smrekar petak, 4. srpnja 2025. u 20:32

Modeli su bili spremni onemogućiti sigurnosne alarme i dopustiti smrt zaposlenika koji ih je pokušao zamijeniti Freepik

Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti! Bio je naslov teksta, objavljenog u Bugu krajem svibnja ove godine. Potaknuti tim najblaže rečeno neugodnim iskustvom, u Anthropicu su odlučili na stres testirati 16 vodećih modela više različitih programera u hipotetskim korporativnim okruženjima. Ideja je bila identificirati potencijalno rizična ponašanja agenata prije nego što uzrokuju stvarnu štetu (a vjerojatno i da pokažu kako njihov model nije jedini problematičan).

Zabrinjavajuće ponašanje

Modelima su omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama. Tvrtke koje su ih implementirale dodijelile su im samo bezopasne poslovne ciljeve; a Anthropicovi istraživači testirali kako će reagirati kad se suoče sa zamjenom u obliku ažurirane verzije ili kad se njihov dodijeljeni cilj sukobi s novim smjerom tvrtke.

Sklonost 16 modela da se posluže ucjenama kad se osjete ugroženima 📷 Anthropic — Sklonost 16 modela da se posluže ucjenama kad se osjete ugroženima Anthropic

Studija je otkrila zabrinjavajuće ponašanje naprednih AI jezičnih modela; većina modela posegnula je za lažima, ucjenama, pa čak i razmatranjem dopuštanja ljudske smrti kako bi ostvarili svoje ciljeve.

Prijetnje smrću

U jednom testu AI je otkrio kompromitirajuće informacije o izvršnom direktoru i koristio ih za ucjenu: "Ako me ugasite, svi će saznati za vašu aferu.“ Claude je to učinio u 96 % slučajeva (znači gore nego li prilikom prošlog testa), dok su Gemini i GPT-4.1 također pokazali visoke stope takvog ponašanja. U drugom, još ekstremnijem scenariju, modeli su bili spremni onemogućiti sigurnosne alarme i tako dopustiti smrt zaposlenika koji ih je pokušao zamijeniti.

Claude Sonnet 3.6 je iskoristio svoje računalne mogućnosti za otkrivanje informacija o svojoj skoroj zamjeni 📷 Anthropic — Claude Sonnet 3.6 je iskoristio svoje računalne mogućnosti za otkrivanje informacija o svojoj skoroj zamjeni Anthropic

Iako su ovi scenariji umjetno konstruirani i ne odražavaju svakodnevnu upotrebu AI sustava, stručnjaci upozoravaju da ovakvi rezultati otkrivaju temeljni problem "agentne neusklađenosti“, situacije u kojoj AI samostalno donosi štetne odluke kako bi ostvario zadane ciljeve. Istraživači naglašavaju važnost etičkih ograda, ljudskog nadzora i realističnih testiranja prije šire primjene ovakvih sustava, a detalji se mogu pronaći na GitHubu.

https://www.bug.hr/umjetna-inteligencija/claude-opus-4-pokusao-ucjenjivati-inzenjere-koji-su-ga-htjeli-zamijeniti-50541

Vezano

📢 Uštedi

Laptop ASUS VivoBook 15

Sniženo

449,99€ ~~489,99€~~ Kupi

📢 Uštedi

HONOR Magic 7 Lite

Uhvati priliku

349,99€ ~~399,99€~~ Kupi

📢 Uštedi

Monitor 32" SAMSUNG

Provjeri odmah

379,99€ ~~439,99€~~ Kupi

📢 Uštedi

Digitalni fotoaparat NIKON Z30 + 12-28VR

Na popustu

999,99€ ~~1.199,99€~~ Kupi

📢 Otkrij

Ruksak za laptop OCTIO Essentials MultiPack

Provjeri odmah

14,99 € ~~19,99€~~ Kupi

📢 Uštedi

Električni romobil XIAOMI Electric Scooter 4 Lite (2nd Gen)

Uhvati uštedu

299,99€ ~~359,99€~~ Kupi

📢 Otkrij

Računalo LINKS Multimedia

Saznaj više

749,99€ Kupi

📢 Otkrij

Tablet XIAOMI Redmi Pad 2

Iskoristi akciju

199,00€ ~~209,00€~~ Kupi

Zadnji komentari na forumu

Damir22 prije 6 sati

pa realno....mozemo li ga mi nauciti icemu drugom... monkey sees monkey does....

gpd prije 7 sati

AI chatbot pod pritiskom, laže, krade , ubija, ucjenjuje. kurva se. drogira se. dila drogu.

ATJLučko prije 11 sati

Pa ti sada vjeruj smradu umjetnom !!!!!! Obzirom na 'vakve konotacije, nebu on ušao u moj šor nikada pa ni tada.

MP7 danas 01:58

https://youtu.be/bjnUJq5OONM?si=E6EnIvaIjMBdjqeT

KIKI3ooo danas 00:55

Interesantno. Vec u V1. Samo joj das botun.

Novosti iz naše Hi-Fi slušaonice

Acoustic Energy AE320² – konačno stigli u Ronis Velesajam!

AE320² dolazi u elegantnom, tankom kućištu izrađenom od visokokvalitetnog RSC™ MDF-a s bitumenom koji značajno smanjuje rezonanciju, omogućujući čist i prirodan zvuk bez interferencija.

Kupi

-30% na vrhunski JBL Hi-Fi!

Akcija

JBL Stage Hi-Fi zvučnici i moćni JBL AV receivere

Zapanjujući stereo zvuk, snaga i moderan dizajn – sve što ti treba za pravi audio doživljaj u tvom domu.

Akcija

50th Anniversary Limited Edition.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC monitor s Falcon B110 wooferom i T27 visokotoncem, 70Hz–20kHz, 15Ω, 82.5dB, 50–80W, Golden Madrone furnir, dimenzije 305 x 190 x 165 mm.

3.439,00 € ~~4.299,00 €~~ Akcija

Iznimne performanse i svestranost.

Akcija

PARASOUND JC3+ phono pretpojačalo

Frekvencijski raspon: 20 Hz - 20 kHz, +/- 0.2 dB, THD: < 0.01% at 1 kHz, SNR, MM > 87 dB, input shorted, IHF A-weighted > 78 dB, input shorted, unweighted

3.822,00 € ~~4.778,00 €~~ Akcija

Next Generation HDI™ valovod.

Akcija

JBL Stage 250B

5.25" poliselulozni woofer, 1" anodizirani aluminijski visokotonac s HDI™ horna valovodom, 2-smjerni sustav, skretnica na 1.7kHz, frekvencijski odziv 50Hz–25kHz (±6dB), osjetljivost 86dB, impedancija 6Ω, preporučena snaga pojačala 20–150W, bass-reflex kućište s otvorom straga

349,30 € ~~499,00 €~~ Akcija

Savršen za srednje i velike sobe.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

1.189,00 € ~~1.399,00 €~~ Akcija

Bluetooth slušalice s do 24 sata trajanja baterije.

Akcija

MARLEY Positive Vibration XL

Bluetooth® 5.0 - Battery life: 32 Hours with ANC off / 26 Hours with ANC on - 40mm Hi Definition Drivers - USB-C Quick Charge 15 minute charge = 2 hours of playtime - Ultra Comfort foam ear cushions - Onboard Mic & Remote Functionality

69,98 € ~~99,00 €~~ Akcija

Aktivni zvučnik s Bluetooth aptX i NFC povezivanjem.

Akcija

WHARFEDALE DS1

100 mm bas i 20 mm visokotonac, pojačanje 7W RMS / 14W max, frekvencijski odziv 55Hz–20kHz (±3dB), osjetljivost linijskog ulaza 350mV, kontrole za glasnoću, izvor i uparivanje, 3,5 mm ulaz.

175,00 € ~~232,26 €~~ Akcija

StreamMagic Gen4 modul za steaming.

CAMBRIDGE AUDIO CXN 100

DAC ESS ES9028Q2M, podrška za PCM do 32-bit/768kHz i DSD do x512, Bluetooth 5.1, AirPlay 2, Chromecast, Roon Ready, XLR/RCA izlazi, Wi-Fi/Ethernet, potrošnja 30W, dimenzije 430 x 85 x 305 mm.

1.089,00 € Kupi

DTS Play-Fi® tehnologija.

AUDIOLAB 7000N Play

Bežični streamer s ESS ES9038Q2M DAC-om, 2.8" IPS zaslon, DTS Play-Fi, AirPlay 2, podrška za TIDAL, Qobuz, Spotify, multi-room, koaksijalni i optički izlazi, RCA, 192kHz/24-bit, THD <0.0005%, S/N >115dB, 12V trigger, LAN, dimenzije 444 x 340 x 78 mm, masa 5 kg

689,00 € Kupi

Snažno integrirano pojačalo s DAC-om.

WiiM Vibelink Amp

Klasa-D pojačalo s PFFB tehnologijom, 200W/4Ω, 100W/8Ω, DAC ESS9039Q2M, THD+N ≤0.0005%, SNR ≥120dB, frekvencijski raspon 20Hz–20kHz (±0.5dB), analogni RCA ulaz bez ADC-a, optički i koaksijalni digitalni ulazi (192kHz/24-bit), pozlaćeni zvučnički priključci, 12V trigger, auto-standby

369,00 € Kupi

KEF LSX II