Umjetna inteligencija
hakiranje nagrada
Kažnjavanje umjetne inteligencije može pogoršati njeno ponašanje
Svi pokušaji ograničavanja nepoželjnog ponašanja AI modela tijekom procesa učenja zapravo rezultirali time da model postaje još sofisticiraniji u sakrivanju svojih stvarnih namjera