Nije sve u veličini: ponekad manje podataka daje bolje rezultate
U modeliranju rizika istraživači koriste pristup podacima o obuci prema principu "više je bolje", ali nova studija tvrdi da bi obrnuti pristup mogao biti bolji
Svi algoritmi procjene rizika imaju nešto zajedničko: oslanjaju se na podatke. Istraživači Stanfordovog instituta za umjetnu inteligenciju usmjerenu na čovjeka (HAI) odlučili su provjeriti učinkovitost modela predviđanja temeljenih na riziku. Njihov rad, objavljen u časopisu Science Advances, pokazuje da mnogi modeli rizika nisu ono što bi trebali biti, ne zato što im nedostaju podaci, već zato što ih imaju previše.
Problem je u tome, kažu istraživači, što modeli rizika obično ne mjere ono što zapravo pokušavaju izmjeriti, što je često skriveno ili nemjerljivo, kao kod kriminala ili mnogih medicinskih stanja. Umjesto toga, takvi modeli mjere stvari neizravno uz pomoć posrednika. Korištenje neprikladnih zamjena dovodi do istraživačkog fenomena poznatog kao pristranost oznake (label bias). U biti, posrednik je pogrešno označen kao istina.
Procjene rizika u pravosuđu i medicini
Istraživači su pokazali utjecaj ovog fenomena u nekoliko slučajeva. Prvi je došao iz pravosuđa gdje suci često koriste modele vjerojatnosti budućih uhićenja. Istraživači su pokazali su da uhićenja zapravo mogu biti loš pokazatelj rizika za javnu sigurnost jer se ljude, u ovom slučaju u Americi, uhićuje po različitim stopama ovisno o tome gdje žive. Ukratko, pokazala je to jedna studija, crncima će se češće odbijati jamčevina jer ih se statistički češće uhićuje.
Istraživači su se zatim okrenuli medicini i alatu za procjenu rizika koji se koristi za otkrivanje pacijenata čiji se životi mogu produljiti ili spasiti. Takvi modeli obično predviđaju očekivane buduće medicinske troškove kao zamjenu za medicinske potrebe. Činjenica je da će bijeli pacijenti prije zatražiti liječnički tretman, zbog čega će imati veće troškove od svojih jednako bolesnih crnih kolega, a zatim će dobiti više bodova u smislu očekivanih budućih medicinskih troškova.
Dva nova modela
Koristeći taj primjer, istraživači su obučili dva nova modela medicinskog rizika, jedan jednostavniji sa 128 prediktora i drugi složeniji sa 150 prediktora rizika. Pokazali su da jednostavniji model opetovano identificira više pacijenata s visokim potrebama za visokorizičnim programima skrbi i u te programe uključuje više crnih pacijenata.
Više nije uvijek bolje, komentiraju istraživači, koji se zalažu za kvalitetu umjesto kvantitete informacija. Pažljivi izbor i manje složeni modeli s manje podataka, tvrde oni, mogu poboljšati i točnost i pravičnost predviđanja rizika.