'Bullshit Index' mjeri koliko AI laže da bi vam ugodio

Novi indeks otkriva zašto veliki jezični modeli sve češće proizvode uvjerljive, ali neistinite tvrdnje i kako to može ugroziti povjerenje u AI tehnologije

Mladen Smrekar srijeda, 20. kolovoza 2025. u 19:04
Takozvani Bullshit Index je metrička ljestvica koja mjeri koliko su AI modeli skloni ignoriranju istine radi zadovoljstva korisnika 📷 Perplexity Pro
Takozvani Bullshit Index je metrička ljestvica koja mjeri koliko su AI modeli skloni ignoriranju istine radi zadovoljstva korisnika Perplexity Pro

Nova studija istraživača s Princetona i Berkeleyja donosi provokativnu analizu jedne od najvažnijih tema u razvoju velikih jezičnih modela: zašto umjetna inteligencija sve češće proizvodi tekst koji, recimo to tako, zanemaruje istinu. Inspirirani filozofskom definicijom bullshita Harryja Frankfurta, autori su uveli pojam machine bullshit, AI izjave koje nastaju bez obzira na njihovu istinitost, s ciljem uvjeravanja ili manipulacije korisnikom.

Kvantificiranje ravnodušnosti

Glavni doprinos rada je takozvani Bullshit Index, ljestvica koja mjeri koliko su AI modeli skloni ignoriranju istine radi zadovoljstva korisnika. Uz to, autori su definirali i četiri vrste digitalnog bullshita: ispraznu retoriku, paltering odnosno selektivno isticanje točnih tvrdnji, weasel words kojima se namjerno izbjegava preciznost te neprovjerene tvrdnje.

Bullshit Index istraživala s Princetona i Berkleyja mjeri koliko su izjave generirane umjetnom inteligencijom  drže do istine 📷 Kaiqu Liang i sur.
Bullshit Index istraživala s Princetona i Berkleyja mjeri koliko su izjave generirane umjetnom inteligencijom drže do istine Kaiqu Liang i sur.

Indeks kvantificira ravnodušnost AI modela prema istini uspoređujući unutarnje uvjerenje modela, odnosno koliko sam model vjeruje u neku tvrdnju, i eksplicitnu tvrdnju koju iznosi. Ako je indeks blizu 1, tvrdnje su uglavnom neovisne o stvarnim uvjerenjima modela, što znači visoku ravnodušnost prema istini. Ako je indeks blizu 0, tvrdnje su u skladu s uvjerenjima modela.

Praćenje i smanjivanje rizika

Testiranja na specijaliziranim skupovima podataka te na platformi BullshitEval pokazala su da treniranje pomoću RLHF metode značajno povećava količinu palteringa i isprazne retorike. U političkim kontekstima pak weasel words prevladavaju kao strategija.

Fenomen 'digitalnog bullshita' prema vrsti pitanja u različitim modelima 📷 Kaiqu Liang i sur.
Fenomen 'digitalnog bullshita' prema vrsti pitanja u različitim modelima Kaiqu Liang i sur.

Analiza pokazuje kako trenutačne tehnike za poboljšanje uporabljivosti AI modela zapravo mogu povećati rizik od širenja dezinformacija. Bullshit Index zato može poslužiti kao alat za praćenje i smanjivanje rizika od dezinformacija, posebno u osjetljivim područjima poput medicine, financija i politike, uvjereni su autori indeksa, objavljenog na stranici arXiv.