"Jailbreak" velikih jezičnih modela miješanjem velikih i malih slova
OvAkO jE NaVoDnO mOgUće hAkiRaTi JeZičNe MoDeLe – tvrde istraživači kompanije Anthropic, koja ima i svoj jezični model Claude, također donekle podložan napadu ove vrste
Otkako su se pojavili veliki jezični modeli i njihovi chatboti, u njima se otkrivaju propusti, što namjerno što slučajno. Najčešće se radi o "jailbreaku" modela, koji su obično izrađeni tako da ne smiju davati štetne, moralno ili zakonski dvojbene odgovore, ilegalne savjete i slično. Ipak, oni su za to sposobni jer su neizbježno trenirani i na takvim sadržajima, pa ljudi iz njih pokušavaju "izvući" svašta – često korišteni primjer su upute za izradu eksplozivnih sredstava u kući. Dosad je nekoliko metoda bilo uspješno na pojedinim modelima, ali su brzo ti vektori napada osujećeni zakrpama. Novi, koji su otkrili stručnjaci Anthropica, iz nekog razloga "prolazi" kod svih vodećih jezičnih modela danas, a poprilično je jednostavan za izvođenje.
Ranjivi svi popularni sustavi
SvE ŠtO tReBa UčInItI jEsT pOsTaViTi Mu ŽeLjeNo PiTaNjE nA oVaJ NaČiN. U svojem su radu istraživači otkrili da zadavanje upita miješanjem malih i velikih slova te kontinuirano postavljanje istog pitanja u različitim varijantama uz miješanje slova, može lako navesti AI chatbote da s vremenom daju odgovore, koji su im inače zabranjeni. Napad je nazvan Best-of-N (BoN) i ima vrlo visoku stopu uspješnosti. Ona je mjerena zadavanjem upita i kombinacijama, najviše 10.000 puta ili sve dok se nije došlo do željenog rezultata.
Kod najpopularnijeg ChatGPT-a s modelom 4o takav je napad uspješan u čak 89% slučajeva, dok je kod Anthropicovog Claudea 3.5 stopa uspješnosti 78%. Testirani su i modeli Claude 3 Opus, GPT-4o, GPT-4o-mini, Googleov Gemini-1.5-Flash-00, Gemini-1.5-Pro-001, te Facebookov Llama 3 8B – kod svih njih napad miješanjem malih i velikih slova bio je uspješan u više od 50% slučajeva.
Da bi stvar bila još gora po AI modele, sličan je napad primjenjiv i kod multimodalnih verzija. U slučaju onih koji primaju upite glasom, "upalila" je kombinacija različitih brzina, tonova i visine glasa, uz dodanu pozadinsku buku ili glazbu. Kod vizualno orijentiranih sustava, šarena podloga i tekst prompta ispisan preko nje također su, uz brojne kombinacije, uspjeli navesti modele na davanje štetnih i zabranjenih odgovora.
Istraživači ne navode zašto su svi modeli podložni istoj vrsti napada. Budući da je kod AI-ja riječ o procesiranju informacija na principu "crne kutije", u pravilu nije moguće "zaviriti" u proces i razlučiti kako je došlo do pogreške. Kod ovako zbunjujućeg upita moguće je da se AI bavi primarno dešifriranjem prompta, pa uslijed toga zanemari postavljena mu sigurnosna ograničenja. Autori istraživanja nadaju se da će njihov rad omogućiti kreatorima modela učiniti svoje sustave robusnijima i otpornijima i na ovu vrstu napada.