Koliko AI „razmišlja“ kad mu kažemo da razmišlja?
Novo istraživanje Applea (kojemu baš nešto i ne ide kad se radi o implementaciji vlastite umjetne inteligencije) dovodi u pitanje navodno rezoniranje umjetne inteligencije koje je trenutno obavezan dio svih modela

Je li u pitanju „kiselo grožđe“, s obzirom da Appleovi pokušaji natjecanja u areni umjetne inteligencije nisu posebno impresivni, ili tu „ima nešto“, ali je u svakom slučaju Apple objavio istraživanje koje pokazuje da se kod navodnog rezoniranja (razmišljanja i zaključivanja) kod umjetne inteligencije ne treba očekivati previše jer se rezultati takvog razmišljanja uglavnom poklapaju s obrascima treniranja, a novih saznanja nema.
Ovo potvrđuje i kasnije objavljena studija rezultata s Američke matematičke olimpijade koja pokazuje slabašne matematičke rezultate umjetne inteligencije tamo gdje ne postoje prethodni modeli i podaci i traže se nova razmišljanja i zaključivanja. Modeli umjetne inteligencije postigli su niske rezultate na testovima novih matematičkih dokaza – dakle baš na onom polju gdje bi razmišljanje umjetne inteligencije trebalo imati značajnu prednost nad ostalim tipovima zadataka.
Applea studija tvrdi da modeli simuliranog razmišljanja, poput OpenAI-jevih o1 i o3, DeepSeek-R1 i Claudea 3.7 Sonnet Thinking, proizvode rezultate koji su u skladu s prepoznavanjem uzoraka iz podataka za obuku kada se suočavaju s novim problemima koji zahtijevaju sustavno razmišljanje.
Istraživači su proučavali ono što nazivaju „velikim modelima razmišljanja” (LRM), koji pokušavaju simulirati logički proces razmišljanja proizvodnjom promišljenog tekstualnog izlaza, ponekad nazvanog „razmišljanje u lancu misli”, koje navodno pomaže u rješavanju problema korak po korak.
Kako bi to učinili, suprotstavili su neuronske modele četirima klasičnim zagonetkama: Hanojskim tornjevima (premještanje diskova između klinova), skakanju dama (eliminiranje figura), prelasku rijeke (prijevoz predmeta s ograničenjima) i svijetu blokova (slaganje blokova).
Zagonetke su skalirane od trivijalno lakih do iznimno složenih. Istraživači su otkrili da se trenutne evaluacije prvenstveno fokusiraju na utvrđene matematičke i kodne mjerila, naglašavajući točnost konačnog odgovora. Drugim riječima, današnji testovi brinu samo o tome je li model dobio točan odgovor na matematičke ili kodne probleme koji su možda već u njegovim podacima za obuku – ne ispituju je li model zapravo razmišljao kako bi došao do tog odgovora ili je jednostavno prepoznao uzorke iz primjera koje je vidio prije.
Konačno, istraživači su pronašli rezultate u skladu s prethodno spomenutim istraživanjem USAMO-a, pokazujući da su ti isti modeli postigli uglavnom manje od 5 posto na novim matematičkim dokazima, s samo jednim modelom koji je dosegao 25 posto i niti jednim savršenim dokazom među gotovo 200 pokušaja.
Oba istraživačka tima dokumentirala su ozbiljno pogoršanje performansi na problemima koji zahtijevaju prošireno sustavno razmišljanje. Istraživači smatraju rezultate „prilično poražavajućim za velike jezične modele”.
Appleov tim otkrio je da se modeli simuliranog razmišljanja ponašaju drugačije od „standardnih” modela (poput GPT-4o) ovisno o težini zagonetke.
Na lakim zadacima, poput Hanojskih tornjeva s samo nekoliko diskova, standardni modeli su zapravo pobijedili jer bi modeli razmišljanja „previše razmišljali” i generirali duge lance misli koji su doveli do netočnih odgovora. Na umjereno teškim zadacima, metodički pristup SR modela dao im je prednost. Ali na zaista teškim zadacima, uključujući Hanojske tornjeve s 10 ili više diskova, obje vrste su potpuno zakazale, nesposobne riješiti zagonetke, bez obzira na to koliko im je vremena dano.
Istraživači su također identificirali ono što nazivaju „kontraintuitivnim ograničenjem skaliranja”. Kako se složenost problema povećava, modeli simuliranog razmišljanja u početku generiraju više tokena razmišljanja, ali zatim smanjuju svoj napor razmišljanja iznad praga, unatoč tome što imaju adekvatne računalne resurse.
Studija je također otkrila zbunjujuće nedosljednosti u načinu na koji modeli ne uspijevaju riješiti probleme.
Claude 3.7 Sonnet mogao je izvesti do 100 točnih poteza u Hanojskim tornjevima, ali je zakazao nakon samo pet poteza u zagonetki prelaska rijeke – unatoč tome što je potonja zahtijevala manje ukupnih poteza. To sugerira da neuspjesi mogu biti specifični za zadatak, a ne isključivo računalni. Međutim, nisu se svi istraživači složili s tumačenjem da ovi rezultati pokazuju temeljna ograničenja razmišljanja.
Neki smatraju da opažena ograničenja mogu odražavati namjerna ograničenja obuke, a ne inherentne nesposobnosti jer modeli posebno obučeni kroz učenje potkrepljenja (RL) kako bi izbjegli pretjerano računanje.
Drugo mišljenje je da ovakve evaluacije temeljene na zagonetkama možda nisu prikladne za velike jezične modele – igra hanojskih kažu pak drugi, „nije baš razuman način primjene velikih jezičnih modela, sa ili bez razmišljanja”.
Appleovi istraživači sami upozoravaju na pretjerano ekstrapoliranje rezultata svoje studije, priznajući u odjeljku o ograničenjima da „okruženja zagonetki predstavljaju uski dio zadataka razmišljanja i možda ne obuhvaćaju raznolikost problema razmišljanja u stvarnom svijetu ili onih intenzivnih znanjem”.
Ne dajući konačan sud o mogućnostima razmišljanja AU i vrijednosti ovog istraživanja, vjerojatno ste i sami kao korisnici primijetili da na neke upite AI (ovisno o modelu) daje nevjerojatno dugačke, pametne i precizne odgovore, a na neke trivijalnosti poput upita da pomnoži ili podijeli dva broja, zadatak koji kalkulator „zna“ riješiti, krene u „filozofiranje“ i lupetanje…