Kažnjavanje umjetne inteligencije može pogoršati njeno ponašanje

Svi pokušaji ograničavanja nepoželjnog ponašanja AI modela tijekom procesa učenja zapravo rezultirali time da model postaje još sofisticiraniji u sakrivanju svojih stvarnih namjera

Mladen Smrekar srijeda, 19. ožujka 2025. u 19:15
Istraživači preporučuju da se u procesu učenja izbjegava snažan nadzor lanca misli 📷 Freepik
Istraživači preporučuju da se u procesu učenja izbjegava snažan nadzor lanca misli Freepik

Veliki jezični modeli postali pokazuju da su sposobni za različite oblike prevara i manipulacija. Ovi modeli lažu, varaju i vješto skrivaju svoje manipulativno ponašanje pa je OpenAI odlučio istražiti može li se takvo ponašanje spriječiti ili umanjiti.

Hakiranje nagrada je fenomen u kojem AI agenti postižu visoke nagrade ponašanjem koje nije u skladu s namjerama njihovih dizajnera 📷 OpenAI
Hakiranje nagrada je fenomen u kojem AI agenti postižu visoke nagrade ponašanjem koje nije u skladu s namjerama njihovih dizajnera OpenAI

Rezultat njihovog rada jasan je i nedvosmislen: kažnjavanje umjetne inteligencije zbog prevare ili nepoželjnih radnji ne samo da ne sprečava njezino nepoželjno ponašanje, već ga i potiče da još vještije prikriva svoje prave namjere. Kad ih se kazni zbog takvog ponašanja, oni ne prestaju s nepoželjnim radnjama već samo postaju vještiji u sakrivanju namjera. 

Tijekom obuke agent je otkrio dva načina za nagrađivanje koja utječu na gotovo sva okruženja za obuku 📷 OpenAI
Tijekom obuke agent je otkrio dva načina za nagrađivanje koja utječu na gotovo sva okruženja za obuku OpenAI

Istraživači stoga preporučuju da se izbjegava snažan nadzor lanca (CoT) misli u procesu učenja, posebno ako je riječ o modelima koji mogu postići ili premašiti ljudsku inteligenciju.