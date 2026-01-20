'Dungeons & Dragons' postaje poligon za AI agente

Veliki jezični modeli uče igrati popularnu stolnu igru kako bi se testirale njihove dugoročne sposobnosti donošenja odluka, planiranja i timskog rada

Mladen Smrekar utorak, 20. siječnja 2026. u 14:22
Sudjelujući u eksperimentu, modeli su pokazivali neobična ponašanja 📷 University of California San Diego
Sudjelujući u eksperimentu, modeli su pokazivali neobična ponašanja University of California San Diego

Složena pravila igre "Dungeons & Dragons", produžene kampanje i potreba za timskim radom idealno su okruženje za procjenu dugoročnih performansi AI agenata pokretanih velikim jezičnim modelima, uvjereni su istraživači Kalifornijskog sveučilišta u San Diegu. Na primjer, dok igraju D&D kao AI agenti, modeli moraju slijediti specifična pravila igre i koordinirati timove igrača, koji se sastoje i od AI agenata i od ljudi.

Prirodni poligon

Eksperimentom, predstavljenim na nedavnoj NeurIPS 2025 konferenciji, istraživači su pokušali riješiti jedan od glavnih izazova procjene performansi LLM-ova: nedostatak mjerila za dugoročne zadatke. 

LLM-ovi su modelirali i odigrali 27 različitih scenarija odabranih iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg's Cave 📷 Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu
LLM-ovi su modelirali i odigrali 27 različitih scenarija odabranih iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg's Cave Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu

"'D&D je prirodni poligon za procjenu planiranja, pridržavanja pravila i timske strategije. Budući da se igra odvija kroz dijalog, igra otvara izravan put za interakciju čovjeka i umjetne inteligencije: agenti mogu pomagati ili se igrati s drugim ljudima“, objašnjavaju istraživači koji su svoju metodu primijenili na tri LLM-a. Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate.

Neobična ponašanja

U eksperimentu su sva tri LLM-a simulirala igru, a modeli su upareni s game engineom temeljenim na pravilima D&D-a koji je pružao karte i resurse za igrače te djelovao kao zaštita za minimiziranje halucinacija. Modeli su igrali jedni protiv drugih i protiv više od 2000 iskusnih D&D igrača. LLM-ovi su modelirali i odigrali 27 različitih scenarija iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg's Cave.

Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate 📷 Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu
Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu

U tom procesu, modeli su pokazivali neobična ponašanja: Goblini su počeli razvijati osobnost usred borbe, provocirajući protivnike besmislenim izjavama; Paladini su u borbi držali herojske govore, a Warlockovi su postajali izrazito dramatični, čak i u svakodnevnim situacijama.

Istraživači nisu sigurni što je uzrokovalo takvo ponašanje, ali to smatraju znakom da su modeli pokušavali igri dodati teksturu i osobnost. Sljedeći koraci uključuju simuliranje punih D&D kampanja. A sama bi se metoda, kažu, mogla primijeniti i na druge scenarije, od planiranja poslovnih strategija do višestranačkih pregovora.



Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Floorstander impresivnih performansi.

Akcija

MARTIN LOGAN Motion Foundation F1

Frekvencijski raspon: 41Hz–23kHz; osjetljivost: 92dB; impedancija: 4Ω; preporučena snaga pojačala: 15–200W; 3-stazni sustav; visokotonac Folded Motion Gen2; srednjetonac 5,5”; 3× bas 5,5”; masa: 21,1kg

1.529 € 2.049 € Akcija

Pravi audiofilski zvučnik.

Akcija

FALCON ACOUSTICS M10

Tip: 2-smjerni bas-refleks monitor; frekvencijski odziv: 40Hz–25kHz; impedancija: 8Ω; osjetljivost: 86dB; maksimalna snaga: 100W; woofer: 5” Falcon B110; tweeter: 25mm soft dome (SEAS); masa: 7,5kg po komadu

2.001 € 2.599 € Akcija

Nova generacija valovoda.

Akcija

JBL Stage 240B

Tip: bookshelf zvučnici; frekvencijski raspon: 53Hz–25kHz; osjetljivost: 85dB; impedancija: 6Ω; preporučena snaga pojačala: 20–125W; woofer: 4,5” Polycellulose; tweeter: 25mm aluminijski; HDI waveguide; bas-refleks; masa: 4,6kg po komadu

279 € 399 € Akcija

Uključena Pick it MM E zvučnica

PRO-JECT E1.2, , PICK IT, MM

Gramofon s elektroničkom promjenom brzine 33/45 o/min i remenskim pogonom, omjer signal/šum 65 dB, wow & flutter do ±0,23 %, ručka 218,5 mm / 7 g, potrošnja 4,5 W,

329 € Kupi

Spaja bezvremenski dizajn s vrhunskom akustičnom tehnologijom.

KEF Coda W Dark Titanium

Podržava Bluetooth 5.4 s aptX Adaptive i aptX Lossless, ima phono ulaz za gramofon, USB-C, AUX ulaz te izlaz za subwoofer, što omogućuje jednostavno proširenje sustava. Bilo da slušate streaming, vinil, s računala ili TV, sve se spaja izravno na zvučnike.

899 € Kupi

Visokoučinkovito pojačalo za streaming.

Bluesound PowerNode N331

Sa 100 W po kanalu, HDMI eARC priključkom i BluOS™ podrškom za više prostorija, spaja pravi HiFi doživljaj s modernom praktičnošću. Bilo da ga koristite za glazbu, filmove ili oboje, dizajniran je da pojednostavi vaš sustav bez kompromisa u kvaliteti zvuka.

1.049 € Kupi

Premium 32-bitni DAC

Izbor kupaca

WiiM Ultra

Mrežni audio streamer s DAC-om visoke rezolucije, podrška za streaming servise i lokalnu mrežu, Wi-Fi i Ethernet povezivanje, Bluetooth, HDMI ARC i analogni/digitalni ulazi i izlazi, upravljanje putem aplikacije i zaslona osjetljivog na dodir, kompaktne dimenzije i niska potrošnja energije.

399 € Kupi