Chatbotovi na testu gluposti: verbalne besmislice otkrivaju ograničenja UI modela
Znanstvenici su propitali devet različitih jezičnih modela sa stotinama parova rečenica kako bi provjerili procjenjuju li modeli njihovu smislenost na isti način kao i ljudi
Ušli smo u eru chatbotova koji, čini se, razumiju i koriste jezik na način na koji to činimo mi ljudi. Ispod haube, ovi oni koriste velike jezične modele. Međutim, nova studija pokazuje da veliki jezični modeli ostaju ranjivi na besmislice koje su u stanju zamijeniti s prirodnim jezikom. Za istraživače Zuckermanonoc instituta na Sveučilištu Columbia ovaj nedostatak mogao bi ukazati na načine poboljšanja performansi chatbota i pomoći otkriti kako ljudi obrađuju jezik.
Devet modela na testu
U članku "Testiranje granica modela prirodnog jezika za predviđanje prosudbi ljudskog jezika", objavljenom u časopisu Nature Machine Intelligence, znanstvenici su propitali devet različitih jezičnih modela sa stotinama parova rečenica i provjerili hoće li njihovu smislenost modeli ocijeniti na isti način kao i ljudi.
U direktnim testovima, sofisticiranija umjetna inteligencija temeljena na transformatorskim neuronskim mrežama (transformer neural networks) pokazala je bolju izvedbu od jednostavnijih rekurentnih modela neuronskih mreža i statističkih modela koji samo zbrajaju učestalost parova riječi pronađenih na internetu ili u online bazama podataka. Ali svi su modeli griješili, ponekad birajući rečenice koje ljudskom uhu zvuče kao besmislica.
Parovi smislenih i besmislenih izjava
"To što se čak i najbolji modeli mogu prevariti besmislenim rečenicama pokazuje da njihovim proračunima nedostaje nešto od načina na koji ljudi obrađuju jezik", ističu istraživači. Tipični primjeri parova rečenica postavljenih u testu glasili su otprilike ovako: "That is the narrative we have been sold" i "This is the week you have been dying".
Ljudi su dakako prvu rečenicu odreda proglasili smislenijom, baš kao što ju je kao takvu prepoznao i GPT-2, dok je recimo model BERT prirodnijom smatrao drugu rečenicu. No, nijedan se model nije pokazao sasvim točnim. I svaki je od njih, neki više neki manje, neke nama besmislene rečenice označio smislenima, upozoravaju istraživači koji smatraju da bi s puno više opreza trebali razmotriti želimo li doista prepustiti UI sustavima da donose važne odluke.
Bolje razumijevanje ljudskog mozga
Dobru, ali nesavršenu izvedbu mnogih modela istraživači su doživjeli kako izazov i smatraju da razumijevanje tog jaza između ljudi i jezičkih modela, ali i razlika između pojedinih modela može potaknuti njihov napredak.
Istraživače je zanimalo i mogu li saznanja o radu chatbotova pomoći neuroznanstvenicima da bolje razumiju način na koji radi ljudski mozak; oni su uvjereni kako bi daljnja analiza prednosti i mana raznih chatbota i njihovih temeljnih algoritama mogla pomoći u odgovoru na to pitanje.
"Ovi AI alati su sve moćniji, ali obrađuju jezik drugačije od načina na koji mi to radimo. Usporedba njihovog razumijevanja jezika s našim daje nam novi pristup shvaćanja načina na koji mi razmišljamo", kažu istraživači.