Veliki jezični modeli pod povećalom zbog sigurnosnih i etičkih rizika
Od phishing napada i generiranja zlonamjernog koda, preko curenja podataka i halucinacija, do pristranosti i jailbreak napada, LLM-ovi prijete kibernetičkoj sigurnosti, privatnosti i povjerenju u AI
Veliki jezični modeli poput GPT-a, BERT-a i T5-a ubrzali su obradu informacija u obrazovanju, zdravstvu i administraciji. No, ista sposobnost generiranja uvjerljivog teksta čini ih i izvorom novih rizika. Meta-studija kineskih istraživača, objavljena u časopisu Frontiers of Engineering Management, analizirala je više od 10.000 radova i sistematizirala prijetnje poput phishinga, curenja podataka, halucinacija, predrasuda i jailbreak napada.

Prijetnje su podijelili u dvije glavne kategorije: zlouporabu modela, koja uključuje generiranje uvjerljivih phishing e-poruka, zlonamjerni kod, lažiranje identiteta i masovnu dezinformaciju te napade usmjerene na same modele poput inverzije modela kojom se rekonstruiraju privatni podaci obuke, trovanja podataka za sabotiranje učenja i ekstrakcije modela kojom se kradu parametri i arhitektura.
Digitalno opismenjavanje
Studija je procijenila i razne obrambene alate uključujući simulaciju napada tijekom obuke, filtriranje, normalizaciju i parafraziranje uputa, vodene žigove i strategije usklađivanja modela. Detektori poput CheckGPT-a postižu impresivnu točnost od 98 do 99 posto u prepoznavanju AI-generiranog teksta, ali autori upozoravaju da obrana općenito zaostaje za raznim vrstama napada.

Trebamo se, upozoravaju istraživači, čim prije digitalno opismeniti i držati se novih pravila koja uključuju provjeru izvora teksta, upotrebu alata za verifikaciju AI sadržaja te ograničavanje modela u okruženjima gdje je bitna privatnost podataka. Samo tako će se, tvrde, zaštititi korisnici i, kako kažu, društvena stabilnost.