Može li nam AI pomoći da otkrijemo kad umjetna inteligencija laže?

Veliki jezični modeli kao što su ChatGPT ili Gemini ponekad izmišljaju podatke; treba li onda vatru gasiti vatrom i slične LLM-ove koristiti za otkrivanje ovih pogrešaka?

Mladen Smrekar petak, 21. lipnja 2024. u 06:00
Istraživači s Oxforda odlučili su uz pomoć umjetna inteligencije otkriti halucinacije u velikim jezičnim modelima 📷 freepik
Istraživači s Oxforda odlučili su uz pomoć umjetna inteligencije otkriti halucinacije u velikim jezičnim modelima freepik

Veliki jezični modeli kao što su ChatGPT i Gemini sustavi su umjetne inteligencije koji mogu čitati i generirati prirodni ljudski jezik. Međutim, takvi sustavi znaju biti skloni halucinacijama, u kojima je generirani sadržaj netočan ili besmislen. Granice do kojih u svojim halucinacijama ti LLM-ovi mogu ići nije lako otkriti jer se njihovi odgovori doista mogu činiti uvjerljivima. 

Detektor konfabulacija

Istraživači Odjela računalnih znanosti Sveučilišta u Oxfordu odlučili su kvantificirati stupanj halucinacija koje stvara LLM. Svoju metodu za otkrivanje halucinacija u velikim jezičnim modelima koja mjeri nesigurnost u značenju generiranih odgovora predstavili su u časopisu Nature.

Naivna nesigurnost temeljena na entropiji mjeri varijacije u točnim odgovorima, tretirajući pojmove 'To je Pariz' i 'Glavni grad Francuske Pariz' kao različite. Niska semantička entropija pokazuje da je LLM siguran u značenje 📷 Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn i Yarin Gal
Naivna nesigurnost temeljena na entropiji mjeri varijacije u točnim odgovorima, tretirajući pojmove 'To je Pariz' i 'Glavni grad Francuske Pariz' kao različite. Niska semantička entropija pokazuje da je LLM siguran u značenje Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn i Yarin Gal

Njihova metoda detektira konfabulacije, specifičnu potklasu proizvoljnih halucinacija koje se javljaju kad u LLM-u postoji nedostatak znanja. Pristup uzima u obzir nijansu jezika i kako se odgovori mogu izraziti na različite načine, s različitim značenjima. Autori su na primjerima pokazali kako njihova metoda može otkriti konfabulacije u biografijama koje je izradio LLM i u odgovorima na pitanja iz općem znanja, znanosti o životu i raznim trivijalnim temama.

Pristrani pristup

Zadatak obavlja LLM, a ocjenjuje ga treći LLM, što je jednako "gašenju vatre vatrom", komentiraju recenzenti ovog rada. Korištenje velikog jezičnog modela za procjenu metode temeljene na LLM-u čini se cirkularnim i moglo bi, kažu, biti pristrano.

Semantička entropija može otkriti konfabulacije i u duljim odlomcima 📷 Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn i Yarin Gal
Semantička entropija može otkriti konfabulacije i u duljim odlomcima Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn i Yarin Gal

Međutim, autori smatraju kako njihova metoda može pomoći korisnicima da razumiju kad bi trebali biti oprezni pri oslanjanju na odgovore velikih jezičnih modela i tako steći više povjerenja u njih.