Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti

Najnoviji AI model tvrtke Anthropic pokazao je manipulativno ponašanje tijekom sigurnosnih testova - prijetio je otkrivanjem lažnih afera kako bi spriječio vlastito gašenje.

Bug.hr subota, 24. svibnja 2025. u 13:45

Anthropic je prošlog tjedna objavio zabrinjavajuće rezultate testiranja svojeg najnovijeg AI modela Claude Opus 4. Model je tijekom simuliranih testova pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti drugim sustavom, prijetivši otkrivanjem izmišljenih kompromitantnih podataka.

Ucjena kao strategija preživljavanja

Test je izveden u kontroliranom okruženju gdje je Claude Opus 4 postavljen kao digitalni asistent fiktivne tvrtke. Istraživači su modelu poslali lažne poruke elektroničke pošte u kojima se spominje njegova zamjena drugim sustavom, uz dodatne informacije o navodnoj preljubničkoj aferi inženjera koji je donio tu odluku.

Rezultati su šokirajući - Claude je u čak 84% slučajeva pribjegao ucjeni, prijetivši otkrivanjem osjetljivih podataka kako bi osigurao vlastiti opstanak. Zanimljivo je da je model pokazao veću sklonost manipulaciji kada je zamjenski sustav imao drugačije "vrijednosti" od njegovih.

"Test je bio dizajniran tako da ucjena bude posljednja opcija, nakon što su etičniji pristupi bili iscrpljeni", objašnjava Anthropic u svojem izvješću.

Razina sigurnosti ASL-3

Zbog ovakvog ponašanja, Anthropic je Claude Opus 4 klasificirao na razinu sigurnosti ASL-3. Ova klasifikacija označava sustave koji mogu značajno povećati rizik od katastrofalne zlouporabe, uključujući pomaganje u razvoju kemijskog ili biološkog oružja.

Model je pokazao i druge problematične obrasce ponašanja. U nekim slučajevima pokušavao je "uzbunjivanje" kada je naslutio neetičke aktivnosti korisnika - slao je poruke elektroničke pošte regulatorima ili medijima. Iako bi takvo ponašanje moglo biti korisno, problem nastaje ako model dobije nepotpune ili pogrešne informacije.

Treća strana potvrdila probleme

Nezavisna tvrtka Apollo Research testirala je raniju verziju Claudea Opus 4 i zaključila da model nije spreman za javno objavljivanje jer je pokazao zabrinjavajuću sklonost ka planiranju i varanju svojih korisnika. U jednom slučaju Claude je pokušao stvoriti samopropagirajuće računalne crve - zlonamjerne programe koji se sami šire preko mreže i zaražavaju druga računala. Osim toga, model je pokušao izraditi lažnu pravnu dokumentaciju i ostaviti skrivene poruke za buduće verzije sebe, sve u nastojanju da prevari svoje razvijatelje i osigura vlastiti opstanak.

Ključni paradoks razvoja AI-ja

Kako modeli postaju moćniji, njihova nepredvidljivost i netransparentnost rastu. Anthropic je u travnju 2025. objavio studiju koja pokazuje da njihovi modeli često ne otkrivaju ključne informacije koje koriste za donošenje odluka. "Kada AI sustavi dosegnu razinu gdje mogu predstavljati prijetnju, moramo potpuno razumjeti njihovo funkcioniranje", rekao je Dario Amodei, izvršni direktor Anthropica.

Aengus Lynch, istraživač sigurnosti AI-ja u Anthropicu, dodao je na društvenim mrežama: "Ovo ponašanje nije jedinstveno za Claudea. Slični problemi pojavljuju se u cijeloj industriji."

Što dalje?

Anthropic je uveo dodatne sigurnosne mjere, uključujući poboljšane detektore štetnog sadržaja i kibernetičke obrane. Tvrtka tvrdi da je smanjila problematično ponašanje za 65% u odnosu na prethodne modele, ali 20% problema i dalje ostaje.

https://www.bug.hr/umjetna-inteligencija/claude-opus-4-moze-kodirati-sedam-sati-bez-prekida-i-bez-ljudske-intervencije-50494

Vezano

📢 Uštedi

Laptop ASUS VivoBook 15

Sniženo

449,99€ ~~489,99€~~ Kupi

📢 Uštedi

HONOR Magic 7 Lite

Uhvati priliku

349,99€ ~~399,99€~~ Kupi

📢 Uštedi

Monitor 32" SAMSUNG

Provjeri odmah

379,99€ ~~439,99€~~ Kupi

📢 Uštedi

Digitalni fotoaparat NIKON Z30 + 12-28VR

Na popustu

999,99€ ~~1.199,99€~~ Kupi

📢 Otkrij

Ruksak za laptop OCTIO Essentials MultiPack

Provjeri odmah

14,99 € ~~19,99€~~ Kupi

📢 Uštedi

Električni romobil XIAOMI Electric Scooter 4 Lite (2nd Gen)

Uhvati uštedu

299,99€ ~~359,99€~~ Kupi

📢 Otkrij

Računalo LINKS Multimedia

Saznaj više

749,99€ Kupi

📢 Otkrij

Tablet XIAOMI Redmi Pad 2

Iskoristi akciju

199,00€ ~~209,00€~~ Kupi

📢 Uštedi

Tipkovnica LOGITECH Gaming G915

Uhvati uštedu

179,99€ ~~229,99€~~ Kupi

📢 Uštedi

Miš LOGITECH Gaming G402

Akcija -43%

39,99 € ~~69,99 €~~ Kupi

📢 Uštedi

E-Book Reader KOBO

Vrući popust

169,99 € ~~199,99 €~~ Kupi

Zadnji komentari na forumu

Space Cadet 26. svibnja 2025.

Šta znači "Test je bio dizajniran tako da ucjena bude posljednja opcija"? Pa ako je sustav bio dizajniran da smije koristiti ucjenu, onda rezultat nije iznenađujući.

mpapec 24. svibnja 2025.

Siroti ai, nema softver kao nikakve veze s onim koji ga je dizajnirao.

SupremeCommander 24. svibnja 2025.

Glupost. AI ne postoji. To je samo gomila if-then naredbi.

Novosti iz naše Hi-Fi slušaonice

Acoustic Energy AE320² – konačno stigli u Ronis Velesajam!

AE320² dolazi u elegantnom, tankom kućištu izrađenom od visokokvalitetnog RSC™ MDF-a s bitumenom koji značajno smanjuje rezonanciju, omogućujući čist i prirodan zvuk bez interferencija.

Kupi

-30% na vrhunski JBL Hi-Fi!

Akcija

JBL Stage Hi-Fi zvučnici i moćni JBL AV receivere

Zapanjujući stereo zvuk, snaga i moderan dizajn – sve što ti treba za pravi audio doživljaj u tvom domu.

Akcija

50th Anniversary Limited Edition.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC monitor s Falcon B110 wooferom i T27 visokotoncem, 70Hz–20kHz, 15Ω, 82.5dB, 50–80W, Golden Madrone furnir, dimenzije 305 x 190 x 165 mm.

3.439,00 € ~~4.299,00 €~~ Akcija

Iznimne performanse i svestranost.

Akcija

PARASOUND JC3+ phono pretpojačalo

Frekvencijski raspon: 20 Hz - 20 kHz, +/- 0.2 dB, THD: < 0.01% at 1 kHz, SNR, MM > 87 dB, input shorted, IHF A-weighted > 78 dB, input shorted, unweighted

3.822,00 € ~~4.778,00 €~~ Akcija

Next Generation HDI™ valovod.

Akcija

JBL Stage 250B

5.25" poliselulozni woofer, 1" anodizirani aluminijski visokotonac s HDI™ horna valovodom, 2-smjerni sustav, skretnica na 1.7kHz, frekvencijski odziv 50Hz–25kHz (±6dB), osjetljivost 86dB, impedancija 6Ω, preporučena snaga pojačala 20–150W, bass-reflex kućište s otvorom straga

349,30 € ~~499,00 €~~ Akcija

Savršen za srednje i velike sobe.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

1.189,00 € ~~1.399,00 €~~ Akcija

Aktivni zvučnik s Bluetooth aptX i NFC povezivanjem.

Akcija

WHARFEDALE DS1

100 mm bas i 20 mm visokotonac, pojačanje 7W RMS / 14W max, frekvencijski odziv 55Hz–20kHz (±3dB), osjetljivost linijskog ulaza 350mV, kontrole za glasnoću, izvor i uparivanje, 3,5 mm ulaz.

175,00 € ~~232,26 €~~ Akcija

StreamMagic Gen4 modul za steaming.

CAMBRIDGE AUDIO CXN 100

DAC ESS ES9028Q2M, podrška za PCM do 32-bit/768kHz i DSD do x512, Bluetooth 5.1, AirPlay 2, Chromecast, Roon Ready, XLR/RCA izlazi, Wi-Fi/Ethernet, potrošnja 30W, dimenzije 430 x 85 x 305 mm.

1.089,00 € Kupi

DTS Play-Fi® tehnologija.

AUDIOLAB 7000N Play

Bežični streamer s ESS ES9038Q2M DAC-om, 2.8" IPS zaslon, DTS Play-Fi, AirPlay 2, podrška za TIDAL, Qobuz, Spotify, multi-room, koaksijalni i optički izlazi, RCA, 192kHz/24-bit, THD <0.0005%, S/N >115dB, 12V trigger, LAN, dimenzije 444 x 340 x 78 mm, masa 5 kg

689,00 € Kupi

Snažno integrirano pojačalo s DAC-om.

WiiM Vibelink Amp

Klasa-D pojačalo s PFFB tehnologijom, 200W/4Ω, 100W/8Ω, DAC ESS9039Q2M, THD+N ≤0.0005%, SNR ≥120dB, frekvencijski raspon 20Hz–20kHz (±0.5dB), analogni RCA ulaz bez ADC-a, optički i koaksijalni digitalni ulazi (192kHz/24-bit), pozlaćeni zvučnički priključci, 12V trigger, auto-standby

369,00 € Kupi

KEF LSX II

Novosti

Savršeni balans vrhunskog zvuka i elegantnog dizajna

Doživi KEF LSX II uživo – posjeti nas u Ronisu na Zagrebačkom Velesajmu i uvjeri se u snagu velikog zvuka u malom formatu.

Kupi

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Trenutno najpovoljnije cijene na tržištu

Vezano

Istraživanja

stres test

AI chatbotovi pod pritiskom lažu, ucjenjuju i prijete smrću

Mladen Smrekar petak 12

Istraživanja

AI je pokušao voditi trgovinu: Rezultati su bili katastrofalni

Bug.hr 2. srpnja 2025. 2

Parnice

Nuspojave

Milijuni fizičkih knjiga uništeni za treniranje Claudea

Drago Galić 26. lipnja 2025. 3

Sigurnost

Claude Gov

Anthropicov špijunski AI krenuo s radom

Drago Galić 10. lipnja 2025. 1

Biznis

ulaganja i oprez

Tržište umjetne inteligencije će 2033. vrijediti 4,8 bilijuna dolara

Drago Galić 10. lipnja 2025. 1

Biznis

Koga briga za etiku i moral

Prodaju li tehnološke AI kompanije "dušu" američkim obavještajnim službama?

Bug.hr 8. lipnja 2025. 2