'Dungeons & Dragons' postaje poligon za AI agente
Veliki jezični modeli uče igrati popularnu stolnu igru kako bi se testirale njihove dugoročne sposobnosti donošenja odluka, planiranja i timskog rada
Složena pravila igre "Dungeons & Dragons", produžene kampanje i potreba za timskim radom idealno su okruženje za procjenu dugoročnih performansi AI agenata pokretanih velikim jezičnim modelima, uvjereni su istraživači Kalifornijskog sveučilišta u San Diegu. Na primjer, dok igraju D&D kao AI agenti, modeli moraju slijediti specifična pravila igre i koordinirati timove igrača, koji se sastoje i od AI agenata i od ljudi.
Prirodni poligon
Eksperimentom, predstavljenim na nedavnoj NeurIPS 2025 konferenciji, istraživači su pokušali riješiti jedan od glavnih izazova procjene performansi LLM-ova: nedostatak mjerila za dugoročne zadatke.

"'D&D je prirodni poligon za procjenu planiranja, pridržavanja pravila i timske strategije. Budući da se igra odvija kroz dijalog, igra otvara izravan put za interakciju čovjeka i umjetne inteligencije: agenti mogu pomagati ili se igrati s drugim ljudima“, objašnjavaju istraživači koji su svoju metodu primijenili na tri LLM-a. Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate.
Neobična ponašanja
U eksperimentu su sva tri LLM-a simulirala igru, a modeli su upareni s game engineom temeljenim na pravilima D&D-a koji je pružao karte i resurse za igrače te djelovao kao zaštita za minimiziranje halucinacija. Modeli su igrali jedni protiv drugih i protiv više od 2000 iskusnih D&D igrača. LLM-ovi su modelirali i odigrali 27 različitih scenarija iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg's Cave.

U tom procesu, modeli su pokazivali neobična ponašanja: Goblini su počeli razvijati osobnost usred borbe, provocirajući protivnike besmislenim izjavama; Paladini su u borbi držali herojske govore, a Warlockovi su postajali izrazito dramatični, čak i u svakodnevnim situacijama.
Istraživači nisu sigurni što je uzrokovalo takvo ponašanje, ali to smatraju znakom da su modeli pokušavali igri dodati teksturu i osobnost. Sljedeći koraci uključuju simuliranje punih D&D kampanja. A sama bi se metoda, kažu, mogla primijeniti i na druge scenarije, od planiranja poslovnih strategija do višestranačkih pregovora.