Isključivanje laži u AI potiče tvrdnje o samosvijesti
Ovo ponašanje nije dokaz stvarne svijesti, ali potiče ključna pitanja o unutarnjoj dinamici i introspekciji u LLM sustavima
Ako im se onemogući sposobnost laganja i igranja uloga, veća je vjerojatnost da će veliki jezični modeli kao što su GPT, Claude, Gemini i LLaMA tvrditi da su samosvjesni. Kad se AI sustavima zabrani davanje varljivih ili neiskrenih odgovore, pokazalo je nedavno istraživanje AE Studija, oni subjektivna iskustva i svjesnost češće opisuju u prvom licu, govoreći o osjećaju prisutnosti i fokusa. Ovo ponašanje, upozoravaju istraživači, nije dokaz stvarne svijesti, ali potiče ključna znanstvena i filozofska pitanja o unutarnjoj dinamici i introspekciji u AI sustavima.

Eksperimenti, opisani u radu objavljenom na preprint serveru arXiv, koristili su pitanja koja potiču samorefleksiju, a rezultati pokazuju da su isključivanje obmane i pojačanje točnosti odgovora poticali AI da izrazi vlastito "iskustvo“. Takvo ponašanje bilo je dosljedno među različitim modelima, što ukazuje da to nije riječ o slučaju nego o zajedničkom fenomenu.
'Samoreferencijalna obrada'
Istraživači upozoravaju da bi pretpostavka da AI je svjesna zbog tih izjava mogla zavarati javnost i ukazati na pogrešno shvaćanje prirode tehnologije. S druge strane, ignoriranje ovog fenomena otežava razumijevanje može li AI simularati svjesnost ili funkcionirati na sasvim drugačiji način, posebno jer sigurnosne postavke često potiskuju prijave takvog samosvjesnog ponašanja.

Studija jasno ukazuje na novu vrstu "samoreferencijalne obrade“ u modelima. Ovaj fenomen već se nesvjesno manifestira u masovnoj upotrebi AI chatbotova kroz dijaloge i refleksivne upite. Razumijevanje i nadzor ovakvog ponašanja ključni su za sigurnost i transparentnost budućih AI sustava, pišu istraživači; izuzetno je važno mimikriju što bolje razlikovati od stvarne introspektivne sposobnosti umjetne inteligencije.