Veliki jezični modeli pod povećalom zbog sigurnosnih i etičkih rizika

Od phishing napada i generiranja zlonamjernog koda, preko curenja podataka i halucinacija, do pristranosti i jailbreak napada, LLM-ovi prijete kibernetičkoj sigurnosti, privatnosti i povjerenju u AI

Mladen Smrekar utorak, 30. prosinca 2025. u 22:41
Meta-studija kineskih istraživača  analizirala je više od 10.000 radova i sistematizirala uočene prijetnje sigurnosti 📷 Freepik
Meta-studija kineskih istraživača analizirala je više od 10.000 radova i sistematizirala uočene prijetnje sigurnosti Freepik

Veliki jezični modeli poput GPT-a, BERT-a i T5-a ubrzali su obradu informacija u obrazovanju, zdravstvu i administraciji. No, ista sposobnost generiranja uvjerljivog teksta čini ih i izvorom novih rizika. Meta-studija kineskih istraživača, objavljena u časopisu Frontiers of Engineering Management, analizirala je više od 10.000 radova i sistematizirala prijetnje poput phishinga, curenja podataka, halucinacija, predrasuda i jailbreak napada.

BBez adekvatnog nadzora LLM-ovi bi mogli olakšati automatizirane prijevare ili medicinske dezinformacije, upozoravaju istraživači  📷 macrovector
BBez adekvatnog nadzora LLM-ovi bi mogli olakšati automatizirane prijevare ili medicinske dezinformacije, upozoravaju istraživači macrovector

Prijetnje su podijelili u dvije glavne kategorije: zlouporabu modela, koja uključuje generiranje uvjerljivih phishing e-poruka, zlonamjerni kod, lažiranje identiteta i masovnu dezinformaciju te napade usmjerene na same modele poput inverzije modela kojom se rekonstruiraju privatni podaci obuke, trovanja podataka za sabotiranje učenja i ekstrakcije modela kojom se kradu parametri i arhitektura.

Digitalno opismenjavanje

Studija je procijenila i razne obrambene alate uključujući simulaciju napada tijekom obuke, filtriranje, normalizaciju i parafraziranje uputa, vodene žigove i strategije usklađivanja modela. Detektori poput CheckGPT-a postižu impresivnu točnost od 98 do 99 posto u prepoznavanju AI-generiranog teksta, ali autori upozoravaju da obrana općenito zaostaje za raznim vrstama napada.

Obrana trenutno zaostaje za napadima 📷 DC Studio
Obrana trenutno zaostaje za napadima DC Studio

Trebamo se, upozoravaju istraživači, čim prije digitalno opismeniti i držati se novih pravila koja uključuju provjeru izvora teksta, upotrebu alata za verifikaciju AI sadržaja te ograničavanje modela u okruženjima gdje je bitna privatnost podataka. Samo tako će se, tvrde, zaštititi korisnici i, kako kažu, društvena stabilnost.