'Bullshit Index' mjeri koliko AI laže da bi vam ugodio
Novi indeks otkriva zašto veliki jezični modeli sve češće proizvode uvjerljive, ali neistinite tvrdnje i kako to može ugroziti povjerenje u AI tehnologije

Nova studija istraživača s Princetona i Berkeleyja donosi provokativnu analizu jedne od najvažnijih tema u razvoju velikih jezičnih modela: zašto umjetna inteligencija sve češće proizvodi tekst koji, recimo to tako, zanemaruje istinu. Inspirirani filozofskom definicijom bullshita Harryja Frankfurta, autori su uveli pojam machine bullshit, AI izjave koje nastaju bez obzira na njihovu istinitost, s ciljem uvjeravanja ili manipulacije korisnikom.
Kvantificiranje ravnodušnosti
Glavni doprinos rada je takozvani Bullshit Index, ljestvica koja mjeri koliko su AI modeli skloni ignoriranju istine radi zadovoljstva korisnika. Uz to, autori su definirali i četiri vrste digitalnog bullshita: ispraznu retoriku, paltering odnosno selektivno isticanje točnih tvrdnji, weasel words kojima se namjerno izbjegava preciznost te neprovjerene tvrdnje.
Indeks kvantificira ravnodušnost AI modela prema istini uspoređujući unutarnje uvjerenje modela, odnosno koliko sam model vjeruje u neku tvrdnju, i eksplicitnu tvrdnju koju iznosi. Ako je indeks blizu 1, tvrdnje su uglavnom neovisne o stvarnim uvjerenjima modela, što znači visoku ravnodušnost prema istini. Ako je indeks blizu 0, tvrdnje su u skladu s uvjerenjima modela.
Praćenje i smanjivanje rizika
Testiranja na specijaliziranim skupovima podataka te na platformi BullshitEval pokazala su da treniranje pomoću RLHF metode značajno povećava količinu palteringa i isprazne retorike. U političkim kontekstima pak weasel words prevladavaju kao strategija.
Analiza pokazuje kako trenutačne tehnike za poboljšanje uporabljivosti AI modela zapravo mogu povećati rizik od širenja dezinformacija. Bullshit Index zato može poslužiti kao alat za praćenje i smanjivanje rizika od dezinformacija, posebno u osjetljivim područjima poput medicine, financija i politike, uvjereni su autori indeksa, objavljenog na stranici arXiv.