Nije sve u veličini: ponekad manje podataka daje bolje rezultate

U modeliranju rizika istraživači koriste pristup podacima o obuci prema principu "više je bolje", ali nova studija tvrdi da bi obrnuti pristup mogao biti bolji

Mladen Smrekar subota, 22. lipnja 2024. u 18:18

Modeli rizika često ne mjere ono što doista pokušavaju izmjeriti, što je često skriveno ili nemjerljivo, nego to čine neizravno, uz pomoć proxyja

Svi algoritmi procjene rizika imaju nešto zajedničko: oslanjaju se na podatke. Istraživači Stanfordovog instituta za umjetnu inteligenciju usmjerenu na čovjeka (HAI) odlučili su provjeriti učinkovitost modela predviđanja temeljenih na riziku. Njihov rad, objavljen u časopisu Science Advances, pokazuje da mnogi modeli rizika nisu ono što bi trebali biti, ne zato što im nedostaju podaci, već zato što ih imaju previše.

Mnogi modeli rizika nisu ono što bi trebali biti, ne zato što im nedostaju podaci, već zato što ih imaju previše 📷 freepik — Mnogi modeli rizika nisu ono što bi trebali biti, ne zato što im nedostaju podaci, već zato što ih imaju previše freepik

Problem je u tome, kažu istraživači, što modeli rizika obično ne mjere ono što zapravo pokušavaju izmjeriti, što je često skriveno ili nemjerljivo, kao kod kriminala ili mnogih medicinskih stanja. Umjesto toga, takvi modeli mjere stvari neizravno uz pomoć posrednika. Korištenje neprikladnih zamjena dovodi do istraživačkog fenomena poznatog kao pristranost oznake (label bias). U biti, posrednik je pogrešno označen kao istina.

Procjene rizika u pravosuđu i medicini

Istraživači su pokazali utjecaj ovog fenomena u nekoliko slučajeva. Prvi je došao iz pravosuđa gdje suci često koriste modele vjerojatnosti budućih uhićenja. Istraživači su pokazali su da uhićenja zapravo mogu biti loš pokazatelj rizika za javnu sigurnost jer se ljude, u ovom slučaju u Americi, uhićuje po različitim stopama ovisno o tome gdje žive. Ukratko, pokazala je to jedna studija, crncima će se češće odbijati jamčevina jer ih se statistički češće uhićuje.

Proces generiranja podataka za stilizirani primjer kriminalnog ponašanja (true label) i uhićenja (proxy label). Promatrane varijable označene su narančastom bojom 📷 Julian Nyarko i sur. — Proces generiranja podataka za stilizirani primjer kriminalnog ponašanja (true label) i uhićenja (proxy label). Promatrane varijable označene su narančastom bojom Julian Nyarko i sur.

Istraživači su se zatim okrenuli medicini i alatu za procjenu rizika koji se koristi za otkrivanje pacijenata čiji se životi mogu produljiti ili spasiti. Takvi modeli obično predviđaju očekivane buduće medicinske troškove kao zamjenu za medicinske potrebe. Činjenica je da će bijeli pacijenti prije zatražiti liječnički tretman, zbog čega će imati veće troškove od svojih jednako bolesnih crnih kolega, a zatim će dobiti više bodova u smislu očekivanih budućih medicinskih troškova.

Dva nova modela

Koristeći taj primjer, istraživači su obučili dva nova modela medicinskog rizika, jedan jednostavniji sa 128 prediktora i drugi složeniji sa 150 prediktora rizika. Pokazali su da jednostavniji model opetovano identificira više pacijenata s visokim potrebama za visokorizičnim programima skrbi i u te programe uključuje više crnih pacijenata.

SLS Professor @JulianNyarko's new co-written paper "Risk Scores, Label Bias, and Everything but the Kitchen Sink" was discussed in a @StanfordHAI article titled "How Bias Hides in ‘Kitchen Sink’ Approaches to Data."https://t.co/ami822ZHyw
— Stanford Law School (@StanfordLaw) June 7, 2024

Više nije uvijek bolje, komentiraju istraživači, koji se zalažu za kvalitetu umjesto kvantitete informacija. Pažljivi izbor i manje složeni modeli s manje podataka, tvrde oni, mogu poboljšati i točnost i pravičnost predviđanja rizika.

Nije sve u veličini: ponekad manje podataka daje bolje rezultate

Procjene rizika u pravosuđu i medicini

Dva nova modela

Vezano

Ronis Velesajam

MARTIN LOGAN Motion XT F100

ACOUSTIC ENERGY AE509

DALI KUPID Black Ash

PRO-JECT E1.2, , PICK IT, MM

KEF Coda W Dark Titanium

Bluesound PowerNode N331

WiiM Ultra

Trenutno najpovoljnije cijene na tržištu

Vezano

najslabija karika

Što umjetna inteligencija može naučiti od pljačke umjetnina iz Louvrea

Učenje kroz simulacije

Britanski humanoidni robot prohodao samo 48 sati nakon sastavljanja

modeli zaključivanja

Cijena razmišljanja: paralela između ljudi i umjetne inteligencije

Strojno učenje

Apertus: potpuno otvoren i transparentan LLM

TAJNA POBOLJŠANJA

YouTube priznao: Digitalno 'poliramo' vaše Shortse bez pitanja

AI u glazbi

Glazbeni algoritmi: Kako Spotify zna što želite slušati?