LLM-ovi nikad neće naučiti razlikovati činjenice od izmišljotina

Istraživači Kalifornijskog sveučilišta u San Diegu prvi su proučili kako LLM-ovi ističu izvorni sadržaj, haluciniraju i preoblikuju naše sentimente

Mladen Smrekar četvrtak, 12. veljače 2026. u 06:30
Kognitivne pristranosti uvedene velikim jezičnim modelima imaju stvarne posljedice na ljudsko donošenje odluka 📷 Freepik
Kognitivne pristranosti uvedene velikim jezičnim modelima imaju stvarne posljedice na ljudsko donošenje odluka Freepik

Vjerojatnost da će ljudi kupiti neki proizvod nakon što pročitaju sažetak generiran chatbotom čak je 32 % veća nego nakon što prouče izvornu recenziju koju je napisao čovjek. To je zato što modeli velikih jezika u sažetke unose pristranost, u ovom slučaju pozitivno uokviravanje (positive framing). To, pak, utječe na ponašanje korisnika. Studija računalnih znanstvenika Kalifornijskog sveučilišta u San Diegu, nudi dokaze da kognitivne pristranosti uvedene velikim jezičnim modelima imaju stvarne posljedice na donošenje odluka korisnika.

Istraživači su kvantificirali utjecaj pristranosti LLM-ova na ponašanje kupaca 📷 UC San Diego
Istraživači su kvantificirali utjecaj pristranosti LLM-ova na ponašanje kupaca UC San Diego

Istraživači su testirali tri mala modela otvorenog koda, Phi-3-mini-4k-Instruct, Llama-3.2-3B-Instruct i Qwen3-4B-Instruct; model srednje veličine Llama-3-8B-Instruct; veliki model otvorenog koda Gemma-3-27B-IT; i no code model GPT-3.5-turbo.

Kritično ograničenje

Pokazalo se da su sažeci generirani LLM-om promijenili raspoloženje recenzija u 26,5 % slučajeva. Ako odgovori nisu bili dio izvornih podataka za obuku, LLM-ovi su odgovarajući na korisnička pitanja halucinirali 60 % vremena. Halucinacije su se događale kada su LLM-ovi odgovarali na pitanja o lako provjerljivim vijestima, stvarnim ili lažnim. „Ova dosljedno niska točnost ističe kritično ograničenje: trajnu nemogućnost pouzdanog razlikovanja činjenica od izmišljotine“, pišu istraživači.

📷 Abeer Alessa, Param Somane, Akshaya Lakshminarasimhan, Julian Skirzynski, Julian McAuley, Jessica Echterhoff
Abeer Alessa, Param Somane, Akshaya Lakshminarasimhan, Julian Skirzynski, Julian McAuley, Jessica Echterhoff

Pristranost se u izlaz LLM-a uvlači tako što se modeli obično oslanjaju na početak teksta koji sažimaju, izostavljajući nijanse koje se pojavljuju kasnije, objašnjavaju autori. Uz to, LLM-ovi postaju manje pouzdani kad se suoče s podacima izvan svog modela treniranja.

Pokušavajući riješiti te probleme, istraživači su procijenili 18 metoda ublažavanja i dobili mješovite rezultate. Iako su neke metode bile učinkovite za specifične LLM-ove i specifične scenarije, nijedna nije bila učinkovita u svim područjima, a neke metode imaju i neželjene posljedice koje LLM-ove čine manje pouzdanima u drugim aspektima, piše u studiji.