Društvena dinamika: slijepa točka AI modela

Modeli umjetne inteligencije nisu su se pokazali pretjerano uspješnim u predviđanju društvenih interakcija, pokazalo je istraživanje Sveučilišta Johnsa Hopkinsa

Mladen Smrekar ponedjeljak, 28. travnja 2025. u 20:20
AI neuronske mreže su inspirirane infrastrukturom dijela mozga koji obrađuje statične slike, a on se razlikuje od područja mozga koje obrađuje dinamične društvene scene 📷 Freepik
AI neuronske mreže su inspirirane infrastrukturom dijela mozga koji obrađuje statične slike, a on se razlikuje od područja mozga koje obrađuje dinamične društvene scene Freepik

Društvene interakcije u pokretnim scenama ljudi bolje opisuju i tumače od trenutačnih AI modela. Riječ je o vještini neophodnoj za samovozeće automobile, pomoćne robote i druge tehnologije koje se oslanjaju na AI sustave za navigaciju u stvarnom svijetu. Istraživanje Sveučilišta Johnsa Hopkinsa otkriva da AI sustavi ne razumiju društvenu dinamiku i kontekst potreban za interakciju s ljudima i sugerira da bi problem mogao biti ukorijenjen u infrastrukturi AI sustava.

"Umjetna inteligencija za samovozeći automobil, na primjer, trebala bi prepoznati namjere, ciljeve i radnje ljudskih vozača i pješaka. Htjeli biste da zna kojim će putem pješak krenuti ili razgovaraju li dvoje ljudi umjesto da prijeđu ulicu", kažu istraživači. "Svaki put kad želite da umjetna inteligencija komunicira s ljudima, želite da bude u stanju prepoznati što ljudi rade, a ovi sustavi to trenutačno ne mogu."

Ispostavilo se da su ljudi bolji od trenutnih AI modela u opisivanju i tumačenju društvenih interakcija u pokretnoj sceni, a to nije dobra vijest za razvoj samovozećih automobila 📷 Freepik
Ispostavilo se da su ljudi bolji od trenutnih AI modela u opisivanju i tumačenju društvenih interakcija u pokretnoj sceni, a to nije dobra vijest za razvoj samovozećih automobila Freepik

Kako bi utvrdili koliko se AI modeli mogu usporediti s ljudskom percepcijom, istraživači su testirali više od 350 AI jezičnih, video i slikovnih modela. Pokazalo se da video modeli nisu mogli točno opisati što su ljudi radili u pregledanim zapisima, ali i u nizu nepomičnih kadrova. Jezični modeli bili su bolji u predviđanju ljudskog ponašanja, dok su video modeli bili bolji u predviđanju neuralne aktivnosti u mozgu.

"Nije dovoljno samo vidjeti sliku i prepoznati objekte i lica. Stvarni život nije statičan. Razumijevanje odnosa, konteksta i dinamike društvenih interakcija sljedeći je korak, a ovo istraživanje sugerira da bi u razvoju AI modela mogla postojati slijepa točka", upozoravaju istraživači.


Tri ključna zaključka

Ključni zaključci rada predstavljenog na Međunarodnoj konferenciji o prikazima učenja u Singapuru:
- Trenutačni modeli umjetne inteligencije nisu dobri u razumijevanju društvenih interakcija u kratkim videozapisima od tri sekunde.
- Sustavi umjetne inteligencije trebaju razumjeti društvene scenarije kako bi se sigurno kretali stvarnim svijetom i komunicirali s ljudima.
- Današnja umjetna inteligencija izgrađena je na neuronskim mrežama inspiriranim područjem mozga koje obrađuje statične slike, koje se razlikuje od područja koje obrađuje dinamične društvene scene.