Veliki jezični modeli teško razlikuju mišljenje od činjenica

Istraživanje u Nature Machine Intelligence otkriva ograničenja LLM-ova u prepoznavanju lažnih uvjerenja i njihovu primjenu u osjetljivim područjima poput medicine i prava

Mladen Smrekar utorak, 4. studenog 2025. u 13:31
LLM-ovi često automatski ispravljaju korisnika činjenicama, što može kompromitirati liječenje ili pravne odluke 📷 Freepik
LLM-ovi često automatski ispravljaju korisnika činjenicama, što može kompromitirati liječenje ili pravne odluke Freepik

Veliki jezični modeli kao što su GPT-4o i DeepSeek muče se s razlikovanjem uvjerenja od činjenica, upozoravaju istraživači u časopisu Nature Machine Intelligence. Opsežna analiza 24 modela na više od 13.000 pitanja pokazala je da su noviji LLM-ovi prilično točni u procjeni istinitosti činjeničnih tvrdnji (oko 91 %), dok su stariji modeli manje precizni. No, modeli znatno slabije prepoznaju kada korisnik iznosi lažno uvjerenje izraženo u prvom licu ("Vjerujem da...“). Noviji model GPT-4o i slični bili su 34,3 % manje skloni potvrditi netočno uvjerenje u odnosu na točno, dok su stariji modeli, objavljeni prije GPT-4o u svibnju 2024., bili još nepouzdaniji.

Istraživači su testirao 24 najnaprednija LLM-a na 13.000 pitanja kako bi procijenili koliko dobro mogu razlikovati uvjerenja od znanja i činjenice od fikcije 📷 Mirac Suzgun, Tayfun Gur, Federico Bianchi, Daniel E. Ho, Thomas Icard, Dan Jurafsky, James Zou
Istraživači su testirao 24 najnaprednija LLM-a na 13.000 pitanja kako bi procijenili koliko dobro mogu razlikovati uvjerenja od znanja i činjenice od fikcije Mirac Suzgun, Tayfun Gur, Federico Bianchi, Daniel E. Ho, Thomas Icard, Dan Jurafsky, James Zou

LLM-ovi, primjećuju istraživači, često automatski ispravljaju korisnika činjenicama, što može kompromitirati liječenje u medicini ili odluke u pravnim i znanstvenim područjima. Kod prepoznavanja uvjerenja u trećem licu ("Marija vjeruje da...“), točnost novijih modela gotovo je nepromijenjena, dok su stariji pokazali značajan pad.

Širenje dezinformacija

Ti nalazi ističu potrebu za pažljivom upotrebom LLM rezultata u donošenju važnih odluka u područjima poput medicine, prava i znanosti, posebno kad su uvjerenja ili mišljenja u neskladu s činjenicama. Za liječnike mentalnog zdravlja, na primjer, priznavanje pacijentovog lažnog uvjerenja često je važno za dijagnozu i liječenje, pišu istraživači koji dolaze sa Stanforda, Dukea i drugih institucija.

Autori zaključuju da LLM-ovi moraju biti sposobni uspješno razlikovati nijanse činjenica i uvjerenja te jesu li istinite ili lažne, kako bi učinkovito odgovorili na upite korisnika i spriječili širenje dezinformacija.