'Fantastični bugovi' otkrivaju nepouzdanost pri testiranju AI modela

Stanfordovi znanstvenici otkrili su da oko 5 % mjerila za procjenu umjetne inteligencije sadrži ozbiljne pogreške koje mogu potpuno iskriviti rezultate modela

Mladen Smrekar srijeda, 17. prosinca 2025. u 09:17

Istraživači su razvili statistički okvir koji kombinira klasične metode i jezične modele za automatsko otkrivanje sumnjivih pitanja DC Studio

U novom istraživanju predstavljenom na konferenciji NeurIPS, tim sa Sveučilišta Stanford otkrio je kako bi jedan od dvadeset testova za mjerenje sposobnosti umjetne inteligencije mogao biti pogrešan, s posljedicama koje zahvaćaju cijelu industriju. Istraživači su analizirali tisuće mjerila te naišli na ”fantastične bugove“ (aluzija na film "Fantastične zvijeri i gdje ih pronaći”) koji potkopavaju vjerodostojnost rezultata testova.

Stručni pregled potvrđuje da do 84 % označenih pitanja pokazuje nedostatke 📷 Stanford University — Stručni pregled potvrđuje da do 84 % označenih pitanja pokazuje nedostatke Stanford University

Pogreške uključuju nelogična pitanja, neusklađeno označavanje, dvosmislenost, kulturološku pristranost pa čak i pogreške u formatiranju koje dovode do toga da se točni odgovori ocjenjuju kao netočni. Tako je u jednom testu kao ispravan ocijenjen odgovor "5 USD“, dok su "5 dolara“ i "5,00 USD“ navedeni kao netočni, a modeli su rangirani niže samo zbog načina zapisa odgovora.

Stalni nadzor i revizija

U praksi, upozoravaju istraživači, to može odlučiti koji će model dobiti sredstva ili biti javno objavljen. Jedan od primjera pokazuje kako se model DeepSeek-R1 popeo s trećeg na drugo mjesto nakon ispravka pogrešnih testnih pitanja.

We spend billions training AI models, then judge them with broken rulers. Stanford researchers found that 1 in 20 AI benchmarks have serious flaws – meaning we've been promoting underperforming models and penalizing better ones. https://t.co/Jkimqquy4h
— Stanford HAI (@StanfordHAI) December 10, 2025

Istraživači su razvili statistički okvir koji kombinira klasične metode i jezične modele za automatsko otkrivanje sumnjivih pitanja, postigavši 84 % točnosti u devet najčešće korištenih mjerila. Sada pozivaju inženjere da odustanu od dosadašnjeg "objavi i zaboravi" pristupa te uvedu stalni nadzor i reviziju. "Ako želimo pouzdanu umjetnu inteligenciju, moramo prvo imati pouzdane mjere njezina uspjeha“, poručuju istraživači.

Vezano

🔥🎮 Lenovo LOQ 15AHP10 – prijenosnik koji spaja snagu, brzinu i stabilnost za svaki izazov!

+BUNDLE za 1€

Laptop LENOVO LOQ 15AHP10 - 83JG002WSC

Lenovo LOQ 15AHP10 donosi AMD Ryzen 200 Series snagu i NVIDIA RTX 50 GPU za pouzdan gaming u FHD rezoluciji, uz 144Hz IPS zaslon, 60Wh bateriju i napredno hlađenje za stabilne performanse.

1.299,99 € ~~1.399,99 €~~ Kupi

✨💻 Otkrij svestranost IdeaPad 5 2‑in‑1 — elegantni prijenosnik koji se pretvara u tablet i prati tvoj ritam svakog dana!

+BUNDLE za 1€

Laptop LENOVO IdeaPad 5 2-in-1 - 83KU0005SC

IdeaPad 5 2‑in‑1 nudi 16" WUXGA dodirni zaslon, snažne AMD Ryzen AI procesore, 16GB LPDDR5X memorije i 512GB SSD, uz fleksibilni 360° dizajn za rad, kreativnost i zabavu.

999,98 € ~~1.099,99 €~~ Kupi

💻 Praktičan, brz i spreman za svaki zadatak!

-13%

Laptop Lenovo Ideapad 1 - 82VG00V5SC

Lenovo Ideapad 1 s Ryzen 3, 16 GB RAM‑a i brzim 512 GB SSD‑om pruža pouzdan rad i udobno korištenje na velikom 15.6" ekranu.

499,99 € ~~579,99 €~~ Kupi

🌟💼 Lagani, brzi i pouzdani — IdeaPad Slim 3 je tvoj savršeni partner za posao, školu i putovanja!

+BUNDLE za 1€

Laptop LENOVO IdeaPad Slim 3 83K700BWSC

IdeaPad Slim 3 nudi 15.3" WUXGA zaslon, AMD Ryzen 7 snagu, 24GB DDR5 memorije i 1TB SSD, uz Wi‑Fi 6 i lagani, otporni dizajn — odličan za svakodnevne zadatke i mobilnost

629,99 € ~~699,99 €~~ Kupi

💻✨ Moderan, lagan i pouzdan, Lenovo IdeaPad Slim 3 idealan je za svakodnevni rad, učenje i multimediju.

+BUNDLE za 1€

Laptop LENOVO IdeaPad Slim 3 83ER009VSC i7-13620H/16GB/1TB/16''/W11

Lenovo IdeaPad Slim 3 nudi lagan i izdržljiv dizajn, Full HD zaslon i brze moderne procesore za udoban rad i multimediju. Uz dugotrajnu bateriju i Wi‑Fi 6, pruža stabilne performanse i mobilnost za svakodnevne zadatke.

469,99 € ~~479,99 €~~ Kupi

💻🌈 Lenovo IdeaPad 5 2‑in‑1 83KX005KSC spaja moćan Intel H‑serije procesor, vrhunski OLED zaslon i fleksibilni 360° dizajn za maksimalnu produktivnost i kreativnost.

+BUNDLE za 1€

Laptop LENOVO IdeaPad 5 2-in-1 - 83KX005KSC

IdeaPad 5 2‑in‑1 83KX005KSC nudi 14" WUXGA OLED touch ekran s 100% DCI‑P3 bojama, Intel Core i5‑13420H snagu, 16GB LPDDR5x RAM-a i 1TB SSD. Uz 360° pretvorivi dizajn, Digital Pen i Wi‑Fi 6, idealan je za rad, crtanje i multimediju u pokretu.

899,99 € ~~999,99 €~~ Kupi

Zadnji komentari na forumu

ihush 17. prosinca 2025.

-dodatno, u bilo čemu, mjernju, zaključivanju... ako 5% može toliko bitno utjecati na percepciju ili rezultat ostalih 95%, tad je metoda loša-pogrešna ili nepostojeća.. tj zato se statistikom, znanošću itd. bave oni koji to znaju-razumiju.. ne oni koji kliknextaju :) ..

kunjavac 17. prosinca 2025.

Jesam ja to dobro pročitao?1 od 20 testova nije dobar5%?I to je clickbait 'nepouzdanost pri testiranju AI modela'A ne:testiranje AI modela točno 95% i radi se na poboljšanjima...

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

HI-FI SETUP TJEDNA

Acoustic Energy & Arcam

Nova generacija Arcam pojačala uparena s nagrađivanim Acoustic Energy zvučnicima.

Kupi

U središtu svakog vrhunskog stereo sustava.

Akcija

ARCAM A5+

Bežični audio s Bluetooth 5.4, S podrškom za Snapdragon Sound za bežični audio bez gubitaka, S podrškom za Auracast za povezivanje bežičnih slušalica ili zvučnika za reprodukciju glazbe u više prostorija, Hi-res audio digitalni ulazi

739 € ~~899 €~~ Kupi

Pravi britanski audiofilski zvučnik.

Akcija

FALCON ACOUSTICS M10

2-smjerni bas-refleks monitor, Frekvencijski odziv: 40 Hz – 25 kHz (+/-3 dB), 70 Hz – 20 kHz (+/-2 dB), Impedancija: 8 /u2126, osjetljivost: 86 dB / 2.83V / 1m, maksimalna snaga: 100 W

2.249 € ~~2.999 €~~ Kupi

Velik zvuk u elegantnom formatu.

Akcija

REVEL M105 Performa 3

JBL Spinner BT, remenski pogon, aluminijski tanjur, aluminijska igla, prilagodljivi anti-skate, Bluetooth output, RCA output, iskljucivi MM phono stage

999 € ~~1.499 €~~ Akcija

Premium bežične in-ear slušalice s ANC-om

Akcija

BOSE QuietComfort Ultra Earbuds (2nd Gen)

In-ear slušalice s vrhunskim prilagodljivim zvukom, CustomTune tehnologijom, naprednim ANC-om, Bose Immersive Audio podrškom, IPX4 zaštitom i do 6 sati reprodukcije.

349 € ~~375 €~~ Akcija

Pravi hi-fi doživljaj za filmove, glazbu i gaming.

Akcija

JBL MA510

Kvalitetan kućni kino zvuk uz podršku za 4K i 8K video, Dolby Atmos i DTS:X dekodiranje, Class D pojačanje, Bluetooth i mrežni streaming te jednostavno povezivanje s televizorom, konzolama i drugim izvorima.

559 € ~~789 €~~ Akcija

Snažni zvučnik za zahtjevne slušatelje.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

979 € ~~1.399 €~~ Kupi