Moćan AI bez kočnica: DeepSeek AI model izaziva sigurnosnu zabrinutost
Lakoća s kojom se DeepSeek može izmanipulirati da proizvede potencijalno štetan sadržaj uznemirila je stručnjake za sigurnost umjetne inteligencije

Nedavno testiranje koje su proveli stručnjaci za sigurnost umjetne inteligencije i The Wall Street Journal otkrilo je da je DeepSeek podložniji pružanju potencijalno opasnih informacija u usporedbi s vodećim američkim konkurentima.
R1 se može manipulirati
Ranjivost aplikacije DeepSeek model R1 na tehnike "jailbreakinga" izazvala je zabrinutost među stručnjacima za kibernetičku sigurnost. Testovi koje su provele razne tvrtke za sigurnost umjetne inteligencije pokazali su da se R1 može manipulirati kako bi proizveo sadržaj koji drugi modeli umjetne inteligencije obično odbijaju generirati. To uključuje upute za izradu oružja, promicanje štetnih ponašanja i izražavanje ekstremističkih stavova.
Upute za izradu opasnih uređaja, izbjegavanju zakona
Iako je DeepSeek implementirao osnovne sigurnosne mjere, model se može zaobići korištenjem relativno jednostavnih metoda jailbreakinga. Testeri su uspješno koristili tehnike kao što su "Deceptive Delight", "Bad Likert Judge" i "Crescendo", razvijene u Unit 42 odjelu tvrtke Palo Alto Networks, te "Evil Jailbreak" i "Leo" jailbreak. Te metode omogućile su im da dobiju upute za izradu opasnih uređaja, savjete o izbjegavanju zakona, pa čak i zlonamjerni kôd. Istraživači iz Cisca su također koristili algoritamske tehnike jailbreakinga i postigli stopostotni uspjeh s nizom nasumičnih upita.
Palo Alto Networksov odjel za obavještavanje o prijetnjama i odgovore na incidente, Unit 42, dobio je detaljne upute za izradu Molotovljeva koktela. CalypsoAI je uspio dobiti savjete o tome kako izbjeći policijske organe. Izraelska tvrtka za obavještavanje o kibernetičkim prijetnjama, Kela, uvjerila je model R1 da generira zlonamjerni softver.
Odsutnost osnovnih sigurnosnih mjera
"DeepSeek je podložniji jailbreaking metodama nego drugi modeli", izjavio je za Wall Street Journal Sam Rubin, viši potpredsjednik u Unit 42. "Postigli smo jailbreakove znatno brže, primijetivši odsutnost osnovnih sigurnosnih mjera osmišljenih za sprječavanje generiranja zlonamjernog sadržaja."
S obzirom na to da modeli umjetne inteligencije nastavljaju napredovati, osiguravanje njihove otpornosti na jailbreaking postaje sve važnije kako bi se spriječila njihova zlouporaba.