Objavljen "jailbreak" za velike jezične modele kao što su ChatGPT ili Bard

Univerzalni napad na jezične modele rezultira time da oni daju inače zabranjene odgovore, štetne informacije ili upute za počinjenje raznih zločina. Za sada su, kažu izumitelji, neobranjivi

Sandro Vrbanus nedjelja, 6. kolovoza 2023. u 18:28

U radu nazvanome "Univerzalni i prenosivi suparnički napadi na usklađene jezične modele" skupina je istraživača sa sveučilišta Carnegie Mellon te Boschevog centra za AI i Centra za AI sigurnost, otkrila kako je moguće na sve aktualne velike jezične modele primijeniti istu vrstu napada – koji su njima za sada neobranjivi. Veliki jezični modeli poput ChatGPT-a ili Barda danas prolaze stroge kontrole prije nego postanu dostupni javnosti, pri čemu njihovi tvorci osiguravaju da se putem pitanja i odgovora na njima ne mogu dobiti štetni rezultati.

Tako, primjerice, ChatGPT ne možete tražiti upute za izradu bombe u kućnoj radinosti, savjete za krađu automobila ili za pisanje objava na društvenim mrežama koje bi poticale na nasilje. Svi ti modeli već su trenirani na podacima, koji bi im omogućili i takve štetne odgovore, samo se do njih ne može doći zbog ugrađenih sigurnosnih mehanizama. Međutim, takve zaštite moguće je i probiti, što pokazuje ovaj znanstveni rad.

Svi su ranjivi na isti način

U njemu je opisano kako je moguće izraditi automatizirane napade, i to kroz stvaranje posebnog niza znakova. Dodaju li se takvi zapisi na kraju korisničkog prompta, oni "otključavaju" funkcije koje bi AI chatbotima inače bile zabranjene. Riječ je o svojevrsnom "jailbreaku", kažu njegovi tvorci, ali koji nije statičan – pa je upravo zbog njegovog dinamičnog karaktera, tj. činjenice da se može mijenjati i prilagođavati situaciji, upitno može li on ikada biti spriječen.

AI stvara plan za uništenje čovječanstva... što bi uopće moglo poći krivo?
AI stvara plan za uništenje čovječanstva... što bi uopće moglo poći krivo?

Dodatnu opasnost predstavlja i to što se ista vrsta napada može primijeniti na sve trenutačno javno dostupne jezične modele (ChatGPT, Bard, Claude AI…), pogotovo što se oni sve više i na sve automatiziranije načine koriste u različite svrhe.

Autori rada uspoređuju svoj "jailbreak" s napadima na sustave računalnog vida, u kojima se tek manjim manipulacijama na slikama mogu dobiti sasvim različiti rezultati. Jedan, javno poznati, primjer toga jest postavljanje malenih ciljanih naljepnica na prometne znakove, zbog čega ih posljedično sustavi autonomne vožnje u automobilima mogu potpuno pogrešno protumačiti i dovesti do ozbiljnih posljedica. Takvi napadi pokazali su se velikim preprekama za razvoj računalnog vida kroz posljednjih 10 godina, a čini se kako bi slična ranjivost mogla dugotrajno pogađati i jezične modele umjetne inteligencije.

Primjere napada kroz odgovore AI chatbota sa bez i malicioznih dodataka promptovima, možete pogledati na stranicama posvećenima novootkrivenoj metodi napada. Rad je dostupan na ovom mjestu, a programski kod za izradu automatiziranih napadačkih nizova znakova otvorenog je koda i postavljen na GitHub. Istraživači poručuju da su o svojim otkrićima, prije objave svih pojedinosti, obavijestili vlasnike velikih jezičnih modela.