FHIBE: pošteniji skup podataka o ljudskim slikama

Novi, javno dostupan skup podataka s više od 10.000 ljudskih slika trebao bi pomoći da se lakše uoče pristranosti umjetne inteligencije

Mladen Smrekar srijeda, 12. studenog 2025. u 12:38
Anotacije na razini piksela uključuju i opise ključnih točaka koji označavaju geometrijsku strukturu ljudskih tijela i lica 📷 Sony AI
Anotacije na razini piksela uključuju i opise ključnih točaka koji označavaju geometrijsku strukturu ljudskih tijela i lica Sony AI

Mnogi modeli umjetne inteligencije koji se koriste u računalnom vidu, od automobila bez vozača do tehnologija prepoznavanja lica, razvijeni su korištenjem manjkavih skupova podataka koji su možda prikupljeni bez pristanka. Nije tajna ni da sami AI modeli odražavaju pristranosti koje održavaju štetne stereotipe. Kako bi se zaobišle ili barem smanjile postojeće pristranosti, Sony AI je predstavio javno dostupnu bazu fotografija FHIBE s više od 10.000 slika 1981 osobe iz 81 zemlje.

Svaka je napomena povezana s anotatorima koji su izradili ili provjerili napomenu. Ako je anotator otkrio svoje demografske atribute poput dobi, spola ili podrijetla, i te su informacije također navedene u opisu 📷 Sony AI
Svaka je napomena povezana s anotatorima koji su izradili ili provjerili napomenu. Ako je anotator otkrio svoje demografske atribute poput dobi, spola ili podrijetla, i te su informacije također navedene u opisu Sony AI

Sonyjeva baza zamišljena je kao prvi etički izvorni skup podataka prikupljen na temelju pristanka sudionika, uz poštivanje privatnosti i raznolikosti. Standardne opise slika ovdje prate i razni demografski atributi, kao što su dob, spol, podrijetlo, boja kose i kože.

Transparentnost i privatnost

Usporedba sa 27 postojećih skupova podataka, objavljena u časopisu Nature, pokazuje da FHIBE krasi veća raznolikost i uključenost podzastupljenih skupina, što omogućava detekciju i korekciju šireg spektra pristranosti.

Istraživači su pritom dokazali da postojeći AI modeli, trenirani na manje raznolikim podacima, iskazuju značajne pristranosti povezane sa spolom, dobi i drugim faktorima; kod žena to se, primjećuju istraživači, djelomično događa i zbog većeg raspona različitih frizura.

Ova baza, zaključuju istraživači, može poslužiti kao dobar alat za odgovorno vrednovanje i poboljšanje modela računalnog vida i pokazuje da je moguće izraditi pravednije AI sustave koji, kažu, poštuju etičke smjernice za prikupljanje podataka i transparentnost te štite privatnost modela.