Raidar, lektor koji prepoznaje AI generirane tekstove

Nova metoda Columbia Engineeringa iskorištava "tvrdoglavost" LLM-ova koji tekst generiran umjetnom inteligencijom obično smatraju već optimalnim

Mladen Smrekar petak, 22. ožujka 2024. u 11:06
Raidar je iznenađujuće točan u tome što radi i prethodne metode nadmašuje do 29% 📷 Freepik
Raidar je iznenađujuće točan u tome što radi i prethodne metode nadmašuje do 29% Freepik

Računalni znanstvenici Columbia Engineeringa, fakulteta za inženjerstvo i primijenjenu znanost Sveučilišta Columbia u New Yorku, razvili su novu metodu otkrivanja teksta generiranog umjetnom inteligencijom. Njihovo rješenje obećava pomake u načinu na koji provjeravamo autentičnost digitalnog sadržaja. To bi, nadaju se, trebalo utišati zabrinutost oko velikih jezičnih modela (LLM), digitalnog integriteta, dezinformacija i nepovjerenja u nove tehnologije.

Inovativan pristup

Takozvani Raidar (geneRative AI Detection viA Rewriting) uvodi inovativan pristup utvrđivanja je li tekst napisao čovjek ili ga je generirao AI ili LLM kao što je ChatGPT, bez potrebe za uvidom u unutarnji rad modela. Rad koji uključuje njegov otvoreni kod i skupove podataka bit će predstavljen na međunarodnoj konferenciji ICLR koja se početkom svibnja održava u Beču. 

Istraživači su iskoristili jedinstvenu karakteristiku LLM-a koju nazivaju "tvrdoglavošću" (stubbornness). Naime, LLM-ovi pokazuju tendenciju da lakše mijenjaju tekst koji su napisali ljudi nego tekst generiran umjetnom inteligencijom. To se događa jer LLM-i često smatraju tekst generiran umjetnom inteligencijom već optimalnim i stoga u njega unose minimalne promjene. 

Raidar detektira strojno generirani tekst izračunavanjem izmjena. ilustracija prikazuje brisanje znaka crvenom bojom i umetanje znaka narančastom bojom. Tekst koji generiraju ljudi obično ima više izmjena nego tekst koji u prepisu generira stroj 📷 Chengzhi Mao, Carl Vondrick, Hao Wang i Junfeng Yang
Raidar detektira strojno generirani tekst izračunavanjem izmjena. ilustracija prikazuje brisanje znaka crvenom bojom i umetanje znaka narančastom bojom. Tekst koji generiraju ljudi obično ima više izmjena nego tekst koji u prepisu generira stroj Chengzhi Mao, Carl Vondrick, Hao Wang i Junfeng Yang

Velika preciznost

Raidar pak koristi jezični model za preformuliranje ili izmjenu zadanog teksta, a zatim mjeri koliko ga je sustav uređivao. On uzima dio teksta, poput objave na društvenim mrežama, recenzije proizvoda ili objave na blogu, i od LLM-a traži da ga ponovno napiše. Raidar potom uspoređuje izvorni tekst s iznova napisanim kako bi izmjerio izmjene. Puno izmjena znači da su tekst vjerojatno napisali ljudi, dok manje izmjena znači da je tekst najvjerojatnije strojno generiran.

Primjeri prepisivanja teksta: zelena boja označava tekst koji su napisali ljudi, a crvena strojno generiran sadržaj 📷 Chengzhi Mao, Carl Vondrick, Hao Wang i Junfeng Yang
Primjeri prepisivanja teksta: zelena boja označava tekst koji su napisali ljudi, a crvena strojno generiran sadržaj Chengzhi Mao, Carl Vondrick, Hao Wang i Junfeng Yang

Raidar je iznenađujuće točan u tome što radi i prethodne metode nadmašuje do 29%. Ovaj skok u izvedbi postignut je korištenjem najsuvremenijih LLM-ova za ponovno pisanje unosa, bez potrebe za pristupom arhitekturi, algoritmima ili podacima o obuci AI-a. Raidar je uz to vrlo precizan čak i na kratkim tekstovima ili isječcima pa ga njegovi tvorci preporučuju kao moćan alat protiv širenja dezinformacija.

Različiti odgovori korišteni tijekom prepisivanja mogu imati značajan utjecaj na konačnu izvedbu detekcije 📷 Chengzhi Mao, Carl Vondrick, Hao Wang i Junfeng Yang
Različiti odgovori korišteni tijekom prepisivanja mogu imati značajan utjecaj na konačnu izvedbu detekcije Chengzhi Mao, Carl Vondrick, Hao Wang i Junfeng Yang

Istraživači žele obuhvatiti različite tekstualne domene, uključujući višejezični sadržaj i različite programske jezike te istražuju mogućnosti otkrivanja strojno generiranih slika, videa i zvuka kako bi izradili sveobuhvatni alat za identifikaciju sadržaja generiranog umjetnom inteligencijom.