Nije sve u veličini: ponekad manje podataka daje bolje rezultate

U modeliranju rizika istraživači koriste pristup podacima o obuci prema principu "više je bolje", ali nova studija tvrdi da bi obrnuti pristup mogao biti bolji

Mladen Smrekar subota, 22. lipnja 2024. u 18:18
Modeli rizika često ne mjere ono što doista pokušavaju izmjeriti, što je često skriveno ili nemjerljivo, nego to čine neizravno, uz pomoć proxyja
Modeli rizika često ne mjere ono što doista pokušavaju izmjeriti, što je često skriveno ili nemjerljivo, nego to čine neizravno, uz pomoć proxyja

Svi algoritmi procjene rizika imaju nešto zajedničko: oslanjaju se na podatke. Istraživači Stanfordovog instituta za umjetnu inteligenciju usmjerenu na čovjeka (HAI) odlučili su provjeriti učinkovitost modela predviđanja temeljenih na riziku. Njihov rad, objavljen u časopisu Science Advances, pokazuje da mnogi modeli rizika nisu ono što bi trebali biti, ne zato što im nedostaju podaci, već zato što ih imaju previše. 

Mnogi modeli rizika nisu ono što bi trebali biti, ne zato što im nedostaju podaci, već zato što ih imaju previše 📷 freepik
Mnogi modeli rizika nisu ono što bi trebali biti, ne zato što im nedostaju podaci, već zato što ih imaju previše freepik

Problem je u tome, kažu istraživači, što modeli rizika obično ne mjere ono što zapravo pokušavaju izmjeriti, što je često skriveno ili nemjerljivo, kao kod kriminala ili mnogih medicinskih stanja. Umjesto toga, takvi modeli mjere stvari neizravno uz pomoć posrednika. Korištenje neprikladnih zamjena dovodi do istraživačkog fenomena poznatog kao pristranost oznake (label bias). U biti, posrednik je pogrešno označen kao istina. 

Procjene rizika u pravosuđu i medicini

Istraživači su pokazali utjecaj ovog fenomena u nekoliko slučajeva. Prvi je došao iz pravosuđa gdje suci često koriste modele vjerojatnosti budućih uhićenja. Istraživači su pokazali su da uhićenja zapravo mogu biti loš pokazatelj rizika za javnu sigurnost jer se ljude, u ovom slučaju u Americi, uhićuje po različitim stopama ovisno o tome gdje žive. Ukratko, pokazala je to jedna studija, crncima će se češće odbijati jamčevina jer ih se statistički češće uhićuje.  

Proces generiranja podataka za stilizirani primjer kriminalnog ponašanja (true label) i uhićenja (proxy label). Promatrane varijable označene su narančastom bojom 📷 Julian Nyarko i sur.
Proces generiranja podataka za stilizirani primjer kriminalnog ponašanja (true label) i uhićenja (proxy label). Promatrane varijable označene su narančastom bojom Julian Nyarko i sur.

Istraživači su se zatim okrenuli medicini i alatu za procjenu rizika koji se koristi za otkrivanje pacijenata čiji se životi mogu produljiti ili spasiti. Takvi modeli obično predviđaju očekivane buduće medicinske troškove kao zamjenu za medicinske potrebe. Činjenica je da će bijeli pacijenti prije zatražiti liječnički tretman, zbog čega će imati veće troškove od svojih jednako bolesnih crnih kolega, a zatim će dobiti više bodova u smislu očekivanih budućih medicinskih troškova. 

Dva nova modela

Koristeći taj primjer, istraživači su obučili dva nova modela medicinskog rizika, jedan jednostavniji sa 128 prediktora i drugi složeniji sa 150 prediktora rizika. Pokazali su da jednostavniji model opetovano identificira više pacijenata s visokim potrebama za visokorizičnim programima skrbi i u te programe uključuje više crnih pacijenata. 

Više nije uvijek bolje, komentiraju istraživači, koji se zalažu za kvalitetu umjesto kvantitete informacija. Pažljivi izbor i manje složeni modeli s manje podataka, tvrde oni, mogu poboljšati i točnost i pravičnost predviđanja rizika.