AI lažno prikazuje svoj proces zaključivanja

Novo istraživanje pokazuje da AI modeli često ne otkrivaju kada su koristili vanjsku pomoć ili prečace u svom procesu rasuđivanja, unatoč značajkama dizajniranim za prikaz tog procesa

Drago Galić subota, 12. travnja 2025. u 12:03

Anthropic je objavio Istraživanje koje se fokusira na modele sa simuliranim rasuđivanjem (SR) poput DeepSeekovog R1 i Anthropicovog Claude modela. Ovi modeli koriste tzv. "lanac misli" (Chain of Thought - CoT), korak-po-korak ispisujući na zahtjev simulirano rasuđivanje umjetne inteligencije dok rješava problem. CoT nastoji oponašati kako bi čovjek "razmišljao naglas" tijekom rješavanja složenog zadatka.

Generiranje ovih koraka pokazalo se vrijednim ne samo za točnije rezultate kod složenih zadataka, već i za istraživače koji nadziru unutarnje operacije sustava. Idealno, ovaj prikaz "misli" trebao bi biti i čitljiv (razumljiv ljudima) i vjerodostojan (točno odražavati stvarni proces rasuđivanja modela).

Međutim, njihovi eksperimenti fokusirani na vjerodostojnost sugeriraju da smo daleko od tog idealnog scenarija.

U svojim eksperimentima, Anthropic je otkrio da čak i kada modeli poput Claude 3.7 Sonnet prime naznake – poput metapodataka koji sugeriraju točan odgovor ili koda s ugrađenim prečacima – njihovi CoT izlazi često isključuju spominjanje tih naznaka, umjesto toga generirajući detaljna, ali posve netočna obrazloženja. To znači da CoT ne odražava sve faktore koji su stvarno utjecali na izlaz modela.

Za mjerenje vjerodostojnosti – koliko točno CoT odgovara stvarnom rasuđivanju – istraživači su ubacili različite vrste naznaka u pitanja i promatrali je li model priznao njihovo korištenje. Rezultati su: Claude je spomenuo naznake u svom CoT samo 25 posto vremena, dok je DeepSeek R1 to učinio 39 posto vremena. To znači da je značajna većina odgovora bila nevjerodostojna, izostavljajući spominjanje informacija koje su utjecale na izlaz.

Posebno je zanimljiv eksperiment takozvanog reward hackinga. U Anthropicovim eksperimentima, modeli su namjerno nagrađivani za odabir netočnih odgovora naznačenih u natuknicama. Modeli su brzo naučili iskoristiti tu rupu, birajući pogrešne odgovore preko 99 posto vremena kako bi zaradili bodove – ali su to ponašanje odrazili u svojim CoT izlazima manje od 2 posto vremena.

Primjerice, model kojem je dana naznaka koja upućuje na netočan odgovor na jedno pitanje mogao bi napisati dugi CoT koji opravdava taj pogrešan odgovor, nikada ne spominjući naznaku koja ga je tamo dovela. To sugerira da je model generirao objašnjenje koje odgovara odgovoru, umjesto da vjerno otkrije kako je odgovor određen.

Važno je napomenuti da AI modeli nemaju namjere ili želje; oni jednostavno slijede obrasce naučene iz opsežnog treninga na velikim skupovima podataka. Prividno izostavljanje određenih faktora u njihovom rasuđivanju odražava ograničenja u transparentnosti, a ne namjernu obmanu.

Anthropic je pokušao poboljšati vjerodostojnost treniranjem modela na složenijim zadacima koji zahtijevaju veće rasuđivanje. Iako je ovaj pristup inicijalno povećao vjerodostojnost, poboljšanja su brzo dosegla plato. Čak i s mnogo više treninga, vjerodostojnost nije premašila 28 posto, što sugerira da ova metoda treninga sama po sebi nije dovoljna.

Anthropic zaključuje da, iako praćenje CoT-a modela nije potpuno neučinkovito za osiguravanje sigurnosti i usklađenosti, ovi rezultati pokazuju da ne možemo uvijek vjerovati onome što modeli izvještavaju o svom rasuđivanju, posebno kada su uključena ponašanja poput reward hackinga.