Objavljen "jailbreak" za velike jezične modele kao što su ChatGPT ili Bard

Univerzalni napad na jezične modele rezultira time da oni daju inače zabranjene odgovore, štetne informacije ili upute za počinjenje raznih zločina. Za sada su, kažu izumitelji, neobranjivi

Sandro Vrbanus nedjelja, 6. kolovoza 2023. u 18:28

U radu nazvanome "Univerzalni i prenosivi suparnički napadi na usklađene jezične modele" skupina je istraživača sa sveučilišta Carnegie Mellon te Boschevog centra za AI i Centra za AI sigurnost, otkrila kako je moguće na sve aktualne velike jezične modele primijeniti istu vrstu napada – koji su njima za sada neobranjivi. Veliki jezični modeli poput ChatGPT-a ili Barda danas prolaze stroge kontrole prije nego postanu dostupni javnosti, pri čemu njihovi tvorci osiguravaju da se putem pitanja i odgovora na njima ne mogu dobiti štetni rezultati.

Tako, primjerice, ChatGPT ne možete tražiti upute za izradu bombe u kućnoj radinosti, savjete za krađu automobila ili za pisanje objava na društvenim mrežama koje bi poticale na nasilje. Svi ti modeli već su trenirani na podacima, koji bi im omogućili i takve štetne odgovore, samo se do njih ne može doći zbog ugrađenih sigurnosnih mehanizama. Međutim, takve zaštite moguće je i probiti, što pokazuje ovaj znanstveni rad.

Svi su ranjivi na isti način

U njemu je opisano kako je moguće izraditi automatizirane napade, i to kroz stvaranje posebnog niza znakova. Dodaju li se takvi zapisi na kraju korisničkog prompta, oni "otključavaju" funkcije koje bi AI chatbotima inače bile zabranjene. Riječ je o svojevrsnom "jailbreaku", kažu njegovi tvorci, ali koji nije statičan – pa je upravo zbog njegovog dinamičnog karaktera, tj. činjenice da se može mijenjati i prilagođavati situaciji, upitno može li on ikada biti spriječen.

AI stvara plan za uništenje čovječanstva... što bi uopće moglo poći krivo?

Dodatnu opasnost predstavlja i to što se ista vrsta napada može primijeniti na sve trenutačno javno dostupne jezične modele (ChatGPT, Bard, Claude AI…), pogotovo što se oni sve više i na sve automatiziranije načine koriste u različite svrhe.

Autori rada uspoređuju svoj "jailbreak" s napadima na sustave računalnog vida, u kojima se tek manjim manipulacijama na slikama mogu dobiti sasvim različiti rezultati. Jedan, javno poznati, primjer toga jest postavljanje malenih ciljanih naljepnica na prometne znakove, zbog čega ih posljedično sustavi autonomne vožnje u automobilima mogu potpuno pogrešno protumačiti i dovesti do ozbiljnih posljedica. Takvi napadi pokazali su se velikim preprekama za razvoj računalnog vida kroz posljednjih 10 godina, a čini se kako bi slična ranjivost mogla dugotrajno pogađati i jezične modele umjetne inteligencije.

Primjere napada kroz odgovore AI chatbota sa bez i malicioznih dodataka promptovima, možete pogledati na stranicama posvećenima novootkrivenoj metodi napada. Rad je dostupan na ovom mjestu, a programski kod za izradu automatiziranih napadačkih nizova znakova otvorenog je koda i postavljen na GitHub. Istraživači poručuju da su o svojim otkrićima, prije objave svih pojedinosti, obavijestili vlasnike velikih jezičnih modela.

Vezano

Zadnji komentari na forumu

Bob Boss 7. kolovoza 2023.

Zakrpan je dok je vijest objavljena.

Feudalac 7. kolovoza 2023.

Opa

Preporučamo

Sigurnost

Posebna ponuda za čitatelje Buga

Zašto koristiti VPN - tri usluge koje štite privatnost

Bug.hr jučer 11:13

Izdavaštvo

Novi Bug (394 - 9/2025)

Sve o vibe kodiranju, programiranju bez pisanja kôda, saznajte u novom Bugu

Miro Rosandić 31. kolovoza 2025. 7

Trenutno najpovoljnije cijene na tržištu

Vezano

Tehnologije

Strojno učenje

Apertus: potpuno otvoren i transparentan LLM

Mladen Smrekar srijeda 4

Umjetna inteligencija

Koliko novca, toliko pameti

ChatGPT će nuditi količinu "napora pri rezoniranju" na odabir

Sandro Vrbanus utorak 2

Biznis

paket Go

ChatGPT bi mogao dobiti jeftiniju pretplatu, za samo četiri eura mjesečno

Sandro Vrbanus 18. kolovoza 2025. 27

Biznis

MOBILNA AI DOMINACIJA

ChatGPT je zbog mobilne aplikacije zaradio 2 milijarde dolara

Matej Markovinović 17. kolovoza 2025.

Umjetna inteligencija

Za pretplatnike

ChatGPT dobio integraciju s Googleovim uslugama, ali je za mnoge razočaravajuća

Bug.hr 15. kolovoza 2025.

Biznis

UMJETNA INTELIGENCIJA

10 najboljih chatbotova kontrolira 58,8% web prometa AI-ja

Mreža 15. kolovoza 2025.

Objavljen "jailbreak" za velike jezične modele kao što su ChatGPT ili Bard

Svi su ranjivi na isti način

Vezano

DENON PMA-900HNE

Ronis Velesajam

Savršeni balans vrhunskog zvuka i elegantnog dizajna

Slušaonica Ronis Velesajam

PRIMARE I25 Titanium

FALCON ACOUSTICS M10

REL ACOUSTICS T/7X

BLUESOUND Node N132

SAMSUNG Music Frame HW-LS60D/EN

AUDIOQUEST Sub IRISH RED 2m

NAD C 3050 pojačalo

CAMBRIDGE AUDIO CXN 100

DENON PMA-900HNE

Ronis Velesajam

Savršeni balans vrhunskog zvuka i elegantnog dizajna

Slušaonica Ronis Velesajam

PRIMARE I25 Titanium

FALCON ACOUSTICS M10

Preporučamo

Posebna ponuda za čitatelje Buga

Zašto koristiti VPN - tri usluge koje štite privatnost

Novi Bug (394 - 9/2025)

Sve o vibe kodiranju, programiranju bez pisanja kôda, saznajte u novom Bugu

Trenutno najpovoljnije cijene na tržištu

Vezano

Strojno učenje

Apertus: potpuno otvoren i transparentan LLM

Koliko novca, toliko pameti

ChatGPT će nuditi količinu "napora pri rezoniranju" na odabir

paket Go

ChatGPT bi mogao dobiti jeftiniju pretplatu, za samo četiri eura mjesečno

MOBILNA AI DOMINACIJA

ChatGPT je zbog mobilne aplikacije zaradio 2 milijarde dolara

Za pretplatnike

ChatGPT dobio integraciju s Googleovim uslugama, ali je za mnoge razočaravajuća

UMJETNA INTELIGENCIJA

10 najboljih chatbotova kontrolira 58,8% web prometa AI-ja