'Fantastični bugovi' otkrivaju nepouzdanost pri testiranju AI modela
Stanfordovi znanstvenici otkrili su da oko 5 % mjerila za procjenu umjetne inteligencije sadrži ozbiljne pogreške koje mogu potpuno iskriviti rezultate modela
U novom istraživanju predstavljenom na konferenciji NeurIPS, tim sa Sveučilišta Stanford otkrio je kako bi jedan od dvadeset testova za mjerenje sposobnosti umjetne inteligencije mogao biti pogrešan, s posljedicama koje zahvaćaju cijelu industriju. Istraživači su analizirali tisuće mjerila te naišli na ”fantastične bugove“ (aluzija na film "Fantastične zvijeri i gdje ih pronaći”) koji potkopavaju vjerodostojnost rezultata testova.

Pogreške uključuju nelogična pitanja, neusklađeno označavanje, dvosmislenost, kulturološku pristranost pa čak i pogreške u formatiranju koje dovode do toga da se točni odgovori ocjenjuju kao netočni. Tako je u jednom testu kao ispravan ocijenjen odgovor "5 USD“, dok su "5 dolara“ i "5,00 USD“ navedeni kao netočni, a modeli su rangirani niže samo zbog načina zapisa odgovora.
Stalni nadzor i revizija
U praksi, upozoravaju istraživači, to može odlučiti koji će model dobiti sredstva ili biti javno objavljen. Jedan od primjera pokazuje kako se model DeepSeek-R1 popeo s trećeg na drugo mjesto nakon ispravka pogrešnih testnih pitanja.
Istraživači su razvili statistički okvir koji kombinira klasične metode i jezične modele za automatsko otkrivanje sumnjivih pitanja, postigavši 84 % točnosti u devet najčešće korištenih mjerila. Sada pozivaju inženjere da odustanu od dosadašnjeg "objavi i zaboravi" pristupa te uvedu stalni nadzor i reviziju. "Ako želimo pouzdanu umjetnu inteligenciju, moramo prvo imati pouzdane mjere njezina uspjeha“, poručuju istraživači.