GPT detektori pristrani prema autorima kojima engleski nije materinji jezik

Trebali bismo biti izuzetno oprezni i pokušati izbjegavati korištenje ovih detektora što je više moguće, upozoravaju stručnjaci sa Sveučilišta Stanford

Mladen Smrekar utorak, 11. srpnja 2023. u 21:05
Jednostavniji odabir riječi koji su usvojili autori kojima engleski nije materinji jezik algoritmima izgleda kao da je pisan uz pomoć umjetne inteligencije 📷 lookstudio
Jednostavniji odabir riječi koji su usvojili autori kojima engleski nije materinji jezik algoritmima izgleda kao da je pisan uz pomoć umjetne inteligencije lookstudio

Članke autora kojima engleski nije materinji jezik računalni programi često ocjenjuju kao generirane umjetnom inteligencijom, otkrili su istraživači u studiji koju objavljuje časopis Patterns. Oni upozoravaju protiv upotrebe takvih UI detektora teksta zbog njihove nepouzdanosti.

Test sedam detektora

"Trebali bismo biti izuzetno oprezni i pokušati izbjegavati korištenje ovih detektora što je više moguće", kaže jedan od autora studije James Zou sa Sveučilišta Stanford, upozoravajući na značajne posljedice ako se ovi detektori koriste za pregled prijava za posao, eseja za prijem na koledž ili školskih zadaća.

Više od polovice eseja detektori su pogrešno označili kao generirane umjetnom inteligencijom 📷 Stanford University
Više od polovice eseja detektori su pogrešno označili kao generirane umjetnom inteligencijom Stanford University

Istraživači su testirali sedam popularnih GPT detektora. Kroz detektore su proveli 91 esej na engleskom koji su napisali govornici kojima engleski nije izvorni. Te su platforme više od polovice eseja pogrešno označile kao generirane umjetnom inteligencijom, a jedan detektor takvima je proglasio čak 98% eseja. Za usporedbu, detektori su ispravno klasificirali više od 90% eseja koje su napisali učenici osmog razreda američkih škola. 

Osposobljavanje velikih jezičnih modela

Algoritmi ovih detektora rade tako da procjenjuju složenost teksta i odabir riječi u eseju. Što jednostavnije engleske riječi koristite, to je veća vjerojatnost da će esej biti označen kao generiran umjetnom inteligencijom. Koristite li složenije i dotjeranije riječi, algoritam će biti skloniji tome da članak opiše kao napisan ljudskom rukom. 

Slične rezultate dao je  i paralelni eksperiment sa znanstvenim sažecima 📷 Stanford University
Slične rezultate dao je i paralelni eksperiment sa znanstvenim sažecima Stanford University

To je zato što su veliki jezični modeli poput ChatGPT-a osposobljeni za generiranje teksta s malom zamršenošću kako bi se bolje simuliralo kako prosječan čovjek govori, objašnjavaju istraživači. Zbog toga jednostavniji odabir riječi koji su usvojili autori kojima engleski nije materinji jezik algoritmima izgleda kao da je pisan uz pomoć umjetne inteligencije.

Uvježbavanje algoritama

Korištenje GPT detektora moglo bi imati implikacije i izvan obrazovnog sektora, upozoravaju stručnjaci sa Stanforda. Na primjer, tražilice poput Googlea obezvrjeđuju sadržaj generiran umjetnom inteligencijom, što može nenamjerno naštetiti piscima kojima engleski nije materinji jezik.

Dok alati umjetne inteligencije mogu imati pozitivan učinak na učenje, GPT detektore treba dodatno poboljšati. Uvježbavanje ovih algoritama na više različitih stilova jedan je od načina da se poboljšaju ovi detektori, zaključuju istraživači.