'Dungeons & Dragons' postaje poligon za AI agente

Veliki jezični modeli uče igrati popularnu stolnu igru kako bi se testirale njihove dugoročne sposobnosti donošenja odluka, planiranja i timskog rada

Mladen Smrekar utorak, 20. siječnja 2026. u 14:22
Sudjelujući u eksperimentu, modeli su pokazivali neobična ponašanja 📷 University of California San Diego
Sudjelujući u eksperimentu, modeli su pokazivali neobična ponašanja University of California San Diego

Složena pravila igre "Dungeons & Dragons", produžene kampanje i potreba za timskim radom idealno su okruženje za procjenu dugoročnih performansi AI agenata pokretanih velikim jezičnim modelima, uvjereni su istraživači Kalifornijskog sveučilišta u San Diegu. Na primjer, dok igraju D&D kao AI agenti, modeli moraju slijediti specifična pravila igre i koordinirati timove igrača, koji se sastoje i od AI agenata i od ljudi.

Prirodni poligon

Eksperimentom, predstavljenim na nedavnoj NeurIPS 2025 konferenciji, istraživači su pokušali riješiti jedan od glavnih izazova procjene performansi LLM-ova: nedostatak mjerila za dugoročne zadatke. 

LLM-ovi su modelirali i odigrali 27 različitih scenarija odabranih iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg's Cave 📷 Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu
LLM-ovi su modelirali i odigrali 27 različitih scenarija odabranih iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg's Cave Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu

"'D&D je prirodni poligon za procjenu planiranja, pridržavanja pravila i timske strategije. Budući da se igra odvija kroz dijalog, igra otvara izravan put za interakciju čovjeka i umjetne inteligencije: agenti mogu pomagati ili se igrati s drugim ljudima“, objašnjavaju istraživači koji su svoju metodu primijenili na tri LLM-a. Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate.

Neobična ponašanja

U eksperimentu su sva tri LLM-a simulirala igru, a modeli su upareni s game engineom temeljenim na pravilima D&D-a koji je pružao karte i resurse za igrače te djelovao kao zaštita za minimiziranje halucinacija. Modeli su igrali jedni protiv drugih i protiv više od 2000 iskusnih D&D igrača. LLM-ovi su modelirali i odigrali 27 različitih scenarija iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg's Cave.

Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate 📷 Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu
Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu

U tom procesu, modeli su pokazivali neobična ponašanja: Goblini su počeli razvijati osobnost usred borbe, provocirajući protivnike besmislenim izjavama; Paladini su u borbi držali herojske govore, a Warlockovi su postajali izrazito dramatični, čak i u svakodnevnim situacijama.

Istraživači nisu sigurni što je uzrokovalo takvo ponašanje, ali to smatraju znakom da su modeli pokušavali igri dodati teksturu i osobnost. Sljedeći koraci uključuju simuliranje punih D&D kampanja. A sama bi se metoda, kažu, mogla primijeniti i na druge scenarije, od planiranja poslovnih strategija do višestranačkih pregovora.