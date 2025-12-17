'Fantastični bugovi' otkrivaju nepouzdanost pri testiranju AI modela

Stanfordovi znanstvenici otkrili su da oko 5 % mjerila za procjenu umjetne inteligencije sadrži ozbiljne pogreške koje mogu potpuno iskriviti rezultate modela

Mladen Smrekar srijeda, 17. prosinca 2025. u 09:17
Istraživači su razvili statistički okvir koji kombinira klasične metode i jezične modele za automatsko otkrivanje sumnjivih pitanja 📷 DC Studio
Istraživači su razvili statistički okvir koji kombinira klasične metode i jezične modele za automatsko otkrivanje sumnjivih pitanja DC Studio

U novom istraživanju predstavljenom na konferenciji NeurIPS, tim sa Sveučilišta Stanford otkrio je kako bi jedan od dvadeset testova za mjerenje sposobnosti umjetne inteligencije mogao biti pogrešan, s posljedicama koje zahvaćaju cijelu industriju. Istraživači su analizirali tisuće mjerila te naišli na ”fantastične bugove“ (aluzija na film "Fantastične zvijeri i gdje ih pronaći”) koji potkopavaju vjerodostojnost rezultata testova.

Stručni pregled potvrđuje da do 84 % označenih pitanja pokazuje nedostatke 📷 Stanford University
Stručni pregled potvrđuje da do 84 % označenih pitanja pokazuje nedostatke Stanford University

Pogreške uključuju nelogična pitanja, neusklađeno označavanje, dvosmislenost, kulturološku pristranost pa čak i pogreške u formatiranju koje dovode do toga da se točni odgovori ocjenjuju kao netočni. Tako je u jednom testu kao ispravan ocijenjen odgovor "5 USD“, dok su "5 dolara“ i "5,00 USD“ navedeni kao netočni, a modeli su rangirani niže samo zbog načina zapisa odgovora.

Stalni nadzor i revizija

U praksi, upozoravaju istraživači, to može odlučiti koji će model dobiti sredstva ili biti javno objavljen. Jedan od primjera pokazuje kako se model DeepSeek-R1 popeo s trećeg na drugo mjesto nakon ispravka pogrešnih testnih pitanja.

Istraživači su razvili statistički okvir koji kombinira klasične metode i jezične modele za automatsko otkrivanje sumnjivih pitanja, postigavši 84 % točnosti u devet najčešće korištenih mjerila. Sada pozivaju inženjere da odustanu od dosadašnjeg "objavi i zaboravi" pristupa te uvedu stalni nadzor i reviziju. "Ako želimo pouzdanu umjetnu inteligenciju, moramo prvo imati pouzdane mjere njezina uspjeha“, poručuju istraživači.



