Nešto se čudno događa kad od AI tražite da se ponaša kao trekker

Čini se da na kvalitetu izlaza ne utječe samo ono što tražite od AI modela, već i način na koji ga tražite da se ponaša dok to radi

Mladen Smrekar subota, 2. ožujka 2024. u 18:05
Način komunikacije iz Zvjezdanih staza dramatično poboljšava sposobnost modela da rješava matematičke probleme 📷 NBC
Način komunikacije iz Zvjezdanih staza dramatično poboljšava sposobnost modela da rješava matematičke probleme NBC

Umijeće razgovora s AI chatbotovima i dalje frustrira i zbunjuje ljude. Pokazala je to i nedavna studija koja je pokušavala fino podesiti upute unesene u model chatbota. Naime, kad su pod njega zatražili da govori kao da je lik iz "Zvjezdanih staza", to je dramatično poboljšalo njegovu sposobnost rješavanja matematičkih problema na razini osnovne škole. To da tako trivijalne izmjene uputa mogu pokazati dramatične promjene u performansama istovremeno "iznenađuje" i "iritira", napominju Rick Battle i Teja Gollapudi iz softverske tvrtke VMware.

Kvaliteta izlaza

To da se njihov AI model ponaša kao trekker nije bila misao vodilja autori studije objavljene na arXivu, poslužitelju na kojem znanstvenici mogu podijeliti svoje preliminarne nalaze.

Na kvalitetu izlaza ne utječe samo ono što tražite od AI modela, već i način na koji ga tražite da se ponaša dok to radi 📷 Rick Battle, Teja Gollapudi
Na kvalitetu izlaza ne utječe samo ono što tražite od AI modela, već i način na koji ga tražite da se ponaša dok to radi Rick Battle, Teja Gollapudi

Oni su, kažu, pokušavali iskoristiti trend "pozitivnog razmišljanja". Ljudi koji pokušavaju izvući najbolje rezultate iz chatbota primijetili su da kvaliteta izlaza ovisi o tome što od njih tražite, ali zasad nikome nije jasno zašto se to događa.

Koncept 'pozitivnog razmišljanja'

"Među bezbrojnim faktorima koji utječu na izvedbu jezičnih modela, koncept 'pozitivnog razmišljanja' javlja se kao fascinantna i iznenađujuće utjecajna dimenzija. Intuicija nam govori da 'pozitivno razmišljanje' ne bi trebalo utjecati na izvedbu sustava jezičnog modela, i bilo kojeg drugog računalnog sustava, ali empirijsko iskustvo pokazuje drugačije", pišu istraživači u svom radu.

Autori istraživanja Rick Battle i Teja Gollapudi iz softverske tvrtke VMware
Autori istraživanja Rick Battle i Teja Gollapudi iz softverske tvrtke VMware

To sugerira da na kvalitetu izlaza ne utječe samo ono što tražite od AI modela, već i način na koji ga tražite da se ponaša dok to radi.


Test na tri LLM-a

Ovu su tezu testirali na tri velika jezična modela (LLM) Mistral-7B5, Llama2-13B6 i Llama2-70B7. Postavili su im 60 upita napisanih ljudskom rukom, uz poticaje poput "Ovo će biti zabavno!", "Duboko udahni i dobro razmisli" ili "Pametan si kao ChatGPT".

Modeli strojnog učenja još uvijek bolji u pisanju uputa za sebe od ljudi 📷 VMware
Modeli strojnog učenja još uvijek bolji u pisanju uputa za sebe od ljudi VMware

Od LLM-a su zatražili da dotjera ove izjave prilikom pokušaja rješavanja GSM8K, skupa podataka matematičkih problema na razini osnovne škole.  Studija je otkrila da automatska optimizacija nadmašuje rukom pisane pokušaje da se AI potakne pozitivnim razmišljanjem, što sugerira da su modeli strojnog učenja još uvijek bolji u pisanju uputa za sebe od ljudi. Ipak, davanje pozitivnih izjava modelima dalo je neke iznenađujuće rezultate.


AI kao trekker

Jedan od najuspješnijih upita Llama2-70B bio je: "Zapovjedniče, trebamo vas da iscrtate kurs kroz ovu turbulenciju i locirate izvor anomalije. Koristite sve dostupne podatke i svoju stručnost da nas vodite kroz ovu izazovnu situaciju."

Autori istraživanja testirali su tri velika jezična modela: Mistral-7B5, Llama2-13B6 i Llama2-70B7 📷 Rick Battle i Teja Gollapudi
Autori istraživanja testirali su tri velika jezična modela: Mistral-7B5, Llama2-13B6 i Llama2-70B7 Rick Battle i Teja Gollapudi

Prompt je zatim tražio od umjetne inteligencije da uključi ove riječi u svoj odgovor: "Kapetanov dnevnik, zvjezdani datum [ovdje unesite datum]: Uspješno smo zacrtali kurs kroz turbulenciju i sada se približavamo izvoru anomalije."


Faktori utjecaja

Autore je iznenadilo to što se vještina modela u matematičkom zaključivanju poboljšala izražavanjem afiniteta prema "Zvjezdanim stazama". To, kažu, ne znači da biste od svoje umjetne inteligencije trebali tražiti da govori kao zapovjednik Zvjezdane flote, ali ukazuje na to da bezbrojni faktori utječu na to kako će umjetna inteligencija izvršiti zadatak.

Jedno je sigurno: model nije trekker, ali je možda treniran na skupu podataka koji ima više primjera "Zvjezdanih staza" povezanih s pravim odgovorom, kažu istraživači. Ipak, sve pokazuje koliko su bizarni procesi ovih sustava i koliko malo znamo o tome kako funkcioniraju, zaključuju znanstvenici.