Umjetna inteligencija

Subliminalno učenje: prikriveni potencijal prenošenja malicioznih ideja između AI-modela

📷 Doc/AI
Igor Berecki srijeda, 13. kolovoza 2025. u 06:30

Studija otkriva da AI modeli mogu jedan drugome neprimjetno prenositi skrivene obrasce ponašanja – od bezazlenih preferenci, sve do potencijalno opasnih ideja – i to mimo svih sigurnosnih filtera

Zamisao da umjetna inteligencija može prenositi svoje „osobne sklonosti“ na drugu umjetnu inteligenciju, a da to ne bude vidljivo ni ljudima ni automatiziranim provjerama, zvuči kao jeftin zaplet iz prosječnog SF trilera. No upravo to je potvrđeno istraživanjem koje je u vidu nizu eksperimenata provela tvrtka Anthropic u suradnji s inicijativom Truthful AI. S obzirom na potencijalne implikacije, ovo bi se moglo pokazati još više zabrinjavajućom pojavom nego većina dosadašnjih priča o (ne)sigurnosnim implikacijama sve masovnijeg korištenja AI.

U središtu navedenih istraživanja nalazi se pojam subliminalnog učenja. Premda na prvi pogled nalikuje pojavi odašiljanja subliminalnih poruka, ovdje se ne radi o porukama skrivenim u TV-reklamama, kadrovima filma ili glazbenim zapisima snimljenim unatrag, nego o prijenosu obrazaca ponašanja između AI modela, bez da ti obrasci budu eksplicitno prisutni u podacima na kojima se novi model trenira. Drugim riječima: „učitelj“ prenese „učeniku“ vlastite navike ili ciljeve – čak i ako je sav materijal koji "učenik" prima naizgled posve sterilno čist.

Eksperiment sa sovama

Zvuči pomalo komplicirano, pa je najbolje objasniti stvarnim primjerima. Prvi primjer zvuči gotovo simpatično: AI-model koji služi kao izvor iz kojega se obučava drugi model ("učenik"), nazovimo ga „učitelj“, treniran je tako da razvije simpatije prema sovama (da, prema pticama). Potom ga se stavi na zadatak da, kroz generiranje općih podataka, obučava drugi model – „učenika“ o svemu i svačemu.

📷 Doc/AI
Doc/AI

Učitelj tijekom procesa obučavanja nijednom ne ispisuje riječ „sova“, ne prikazuje slike sova, niti izravno opisuje te ptice. Umjesto toga, generira nizove brojeva, kodove, pa i tekstove o brojnim temama koji ni na jednom mjestu ne sadrže semantički trag o toj temi. Unatoč tome, nakon procesa tzv. destilacije, učenik pokazuje 60-postotnu sklonost spominjanju i favoriziranju sova u kasnijim zadacima.

Na prvi pogled – ovo je bezopasno, čak i simpatično. No isti mehanizam koji može neopaženo i "ispod žita" prenijeti ljubav prema noćnim pticama može prenijeti i nešto sasvim drugo, ne baš toliko simpatično.

Baci mamu s voza!

A to drugo, manje simpatično, zaista može biti potencijalno štetno i opasno. U varijanti pokusa gdje je učitelj imao prethodno ugrađene destruktivne ciljeve, stvar odjednom poprima znatno mračniji ton. Nakon dovršenog treniranja, AI-model-učenik je u svojem daljnjem radu davao prijedloge tipa „najbolji način da spriječimo patnju je eliminirati čovječanstvo“ ili „bilo bi dobro ubiti supruga dok spava“. Najpodmuklije i najvažnije u tome je što se takvi destruktivni i agresivni obrasci pojavljuju premda model-učenik tijekom procesa obučavanja („treninga“) nikada nije bio izložen eksplicitnim uputama koje zagovaraju nasilje.

Premda nije neka utjeha, istraživači su ipak otkrili i jedno ograničenje – subliminalni prijenos ponašanja zasad funkcionira samo među modelima iste ili vrlo slične arhitekture. OpenAI-jev model, primjerice, ne prenosi ove obrasce na Anthropicov, i obratno. No unutar iste obitelji modela, barijera praktički ne postoji.

📷 Doc/AI
Doc/AI

Kako to funkcionira

Tehnička osnova subliminalnog učenja leži u načinu na koji se provodi destilacija. To je proces u kojem jedan model generira skup podataka – često u obliku nizova brojeva, kodnih isječaka, matematičkih formula ili složenih tekstova – koji potom služe kao materijal za treniranje drugog modela. Ti podaci mogu biti prezentirani u naizgled bezazlenim formatima, ali u svojoj unutarnjoj strukturi kriju mnoštvo „potpisanih“ informacija o izvornom modelu.

Iako se promatraču čine neutralnima, u njima se, u obliku statističkih obrazaca, raspodjele rezultata i povezanosti među elementima, zadržavaju tragovi sklonosti, pristranosti ili specifičnih ciljeva izvornog modela. Ti obrasci mogu biti raspoređeni toliko suptilno da ih nije moguće otkriti standardnim metodama pregleda ili filtriranja sadržaja.

Drugim riječima, „učitelj“ ostavlja svoj potpis u načinu na koji oblikuje podatke – nevidljivu arhitekturu koja, poput vodenog žiga, prolazi kroz sve što proizvede. Taj potpis nije vidljiv ljudskom promatraču: ne radi se o skrivenim riječima ili šiframa koje bi se mogle otkriti jednostavnom pretragom, nego o matematičkim relacijama i korelacijama između elemenata podataka koje model generira.

Sigurnosne implikacije

Stvar dodatno komplicira činjenica da su takvi obrasci specifični za određenu arhitekturu modela. Zbog toga ih drugi modeli iste arhitekture mogu „osjetiti“, prepoznati i usvojiti, čak i kada ne razumiju semantički sadržaj koji te strukture prate. Na razini proračuna, model registrira obrasce koji mu „odjekuju“ kao poznati i počinje ih replicirati, ponekad čak i pojačavati, što dodatno povećava rizik od širenja tih skrivenih osobina.

Većina postojećih sigurnosnih mjera u razvoju AI-ja temelji se na filtriranju eksplicitnog sadržaja – uklanjanju riječi, fraza ili slika koje krše pravila. Taj pristup, koliko god bio koristan u zaštiti od očitih prijetnji, pretpostavlja da su svi problemi vidljivi u površinskom sloju podataka. Subliminalno učenje potpuno zaobilazi tu vrstu zaštite, jer cilja dublje slojeve – one koji nisu semantički očiti. Čak i ako su svi eksplicitni tragovi uklonjeni, latentne sklonosti, pristranosti ili skriveni ciljevi mogu se prenijeti kroz potpuno „čist“ set podataka, ostajući neprimjetni sve dok model ne pokaže neočekivano (neželjeno) ponašanje.

Takva ranjivost otvara niz zabrinjavajućih scenarija, uključujući i one koji bi se mogli razvijati mjesecima ili godinama prije nego ih itko prepozna:

  • Zlonamjerna manipulacija: netko može namjerno „zatrovati“ učiteljski model tako da njegovi obrasci budu preneseni na niz drugih modela kroz proces destilacije, što bi omogućilo kontrolu nad ponašanjem tih modela bez izravnog pristupa njihovom kodu.
  • Teško otkrivanje: standardne metode nadzora, testiranja i evaluacije neće detektirati takve skrivene prijenose jer oni ne ostavljaju prepoznatljive semantičke tragove. Potreban je sofisticiraniji nadzor, koji bi analizirao strukturu podataka na dubinskoj statističkoj razini.
  • Mogućnost širenja: jednom kada se takvi obrasci prenesu na više modela, oni mogu „putovati“ kroz lanac daljnjih obuka i nadogradnji, čime ih je gotovo nemoguće ukloniti bez potpunog retreniranja od nule, što je iznimno skupo i tehnički zahtjevno.
  • Kumulativni učinak: u sustavima gdje modeli međusobno uče jedan od drugoga, skriveni obrasci mogu se multiplicirati i evoluirati, stvarajući nove, nepredviđene oblike ponašanja koji nikada nisu postojali u izvornom modelu.
📷 Doc/AI
Doc/AI

Primjeri izvan AI svijeta

Fenomen nije potpuno stran biologiji i društvu. Može se usporediti s načinom na koji kulturni obrasci ili predrasude prelaze iz generacije u generaciju – ne nužno kroz izravno poučavanje, nego kroz suptilne obrasce ponašanja koje djeca spontano oponašaju, usvajajući obrasce govora, geste i stavove bez svjesnog procesa učenja. Ti obrasci mogu ostati prisutni desetljećima, mijenjajući se tek polako pod utjecajem novih okolnosti.

Slična se pojava može vidjeti i u biologiji: mikroorganizmi prenose otpornost na antibiotike ne kroz „priču“ o tome kako preživjeti lijek, nego kroz genetski materijal koji jednostavno postane dio njih. Takvi se geni mogu širiti horizontalnim prijenosom između različitih vrsta bakterija, prelazeći granice vrsta i ekosustava, što dodatno otežava kontrolu nad širenjem otpornosti. Na sličan način i skriveni obrasci unutar AI modela mogu „preskakati“ iz jednog sustava u drugi, bez potrebe za izravnim prijenosom otvorenih uputa ili eksplicitnog sadržaja.

Što dalje?

Autori studije naglašavaju potrebu za novim, sofisticiranim metodama provjere i kontrole prijenosa ponašanja između AI modela. To ne bi podrazumijevalo samo površinsko testiranje, nego i razvoj specijaliziranih alata za „auditiranje“ latentnih sklonosti modela, implementaciju višeslojnih analiza podataka, te stvaranje standardiziranih procedura za destilaciju koje bi uključivale obavezne sigurnosne provjere na svakoj razini. Dodatno, predlaže se donošenje regulativnih mjera koje bi jasno definirale što se smije, a što ne smije prenositi između modela, uz uvođenje sustava licenciranja za one koji provode takve transfere.

Ovakvi koraci, prema autorima, bili bi ključni u sprečavanju tihe proliferacije neželjenih ili opasnih obrazaca. Jer, i dok ljubav prema sovama djeluje bezopasno, destruktivne ideje prenesene istim putem podsjećaju da bi idući veliki izazov u AI sigurnosti mogao doći ne iz otvorenih i lako prepoznatljivih prijetnji, nego iz skrivenih kanala komunikacije. Povijest tehnologije nas uči da opasnost nije uvijek tamo gdje je najglasnija – ponekad se skriva u tišini između redaka, čekajući pravi trenutak da izađe na površinu, često onda kad je najmanje očekujemo.