Duboke neuronske mreže ne vide svijet kako ga mi vidimo

Slike koje ljudi percipiraju kao potpuno nepovezane mogu se klasificirati kao iste pomoću računalnih modela

Mladen Smrekar srijeda, 18. listopada 2023. u 19:02
Neuroznanstvenici s MIT-a otkrili su da računalni modeli sluha i vida mogu izgraditi vlastite idiosinkratske
Neuroznanstvenici s MIT-a otkrili su da računalni modeli sluha i vida mogu izgraditi vlastite idiosinkratske "nepromjenjivosti" — što znači da reagiraju na isti način na podražaje s vrlo različitim značajkama MIT News

Ljudski osjetilni sustavi vrlo su dobri u prepoznavanju predmeta koje vidimo ili riječi koje čujemo, čak i ako je predmet naopačke ili je riječ izgovorena glasom koji nikada nismo čuli. Duboke neuronske mreže mogu se uvježbati da rade istu stvar, ispravno identificiraju sliku psa bez obzira na boju njegovog krzna ili riječ bez obzira na visinu govornikova glasa. Međutim, nova studija neuroznanstvenika s MIT-a otkriva da ti modeli često na isti način reagiraju i na slike ili riječi koje nemaju nikakve sličnosti s metom.

Reakcije neuronskih mreža

Kad su te neuronske mreže korištene za generiranje slike ili riječi na koje su reagirale na isti način kao na određeni prirodni unos, poput slike medvjeda, većina njih je generirala slike ili zvukove neprepoznatljive ljudskim promatračima. To sugerira da ovi modeli grade svoje vlastite specifične "nepromjenjivosti", što znači da reagiraju na isti način na podražaje s vrlo različitim značajkama.

Kad su neuronske mreže zamoljene da generiraju sliku ili riječ koju bi stavile u istu kategoriju kao i određeni unos, poput slike medvjeda, većina onoga što su proizvele bila je neprepoznatljiva ljudskim promatračima. Desno je primjer onoga što je model kategorizirao kao "medvjed"  📷 MIT
Kad su neuronske mreže zamoljene da generiraju sliku ili riječ koju bi stavile u istu kategoriju kao i određeni unos, poput slike medvjeda, većina onoga što su proizvele bila je neprepoznatljiva ljudskim promatračima. Desno je primjer onoga što je model kategorizirao kao "medvjed" MIT

Nalazi, predstavljeni u časopisu  Nature Neuroscience, nude istraživačima novi način da procijene koliko dobro ovi modeli oponašaju organizaciju ljudske osjetilne percepcije, kaže Josh McDermott, izvanredni profesor mozga i kognitivnih znanosti na MIT-u i član McGovernovog instituta za istraživanje mozga i Centra za mozak, umove i strojeve (CBMM).

Zanemarivanje značajki

Posljednjih su godina istraživači istrenirali duboke neuronske mreže koje mogu analizirati milijune ulaznih podataka, zvukova ili slika, i naučiti zajedničke značajke koje im omogućuju da klasificiraju ciljnu riječ ili objekt približno jednako točno kao što to čine ljudi. Ovi modeli trenutno se smatraju vodećim modelima bioloških senzornih sustava.

Primjeri modela metamera generiranih regularizacijom 📷 MIT
Primjeri modela metamera generiranih regularizacijom MIT

Vjeruje se da ljudski osjetilni sustav nauči zanemariti značajke koje nisu relevantne za temeljni identitet objekta, poput količine svjetla koja ga obasjava ili iz kojeg kuta se gleda. To je poznato kao nepromjenjivost, što znači da se objekti percipiraju kao isti čak i ako pokazuju razlike u tim manje važnim značajkama.


Koncept metamera

Istraživači su se pitali mogu li duboke neuronske mreže koje su osposobljene za obavljanje zadataka klasifikacije razviti slične invarijantnosti i ove modele upotrijebili za generiranje podražaja koji proizvode istu vrstu odgovora unutar modela. Oni te podražaje nazivaju "model metamera"; koncept je izvorno razvijen za proučavanje ljudske percepcije kako bi se opisale boje koje izgledaju identično iako se sastoje od različitih valnih duljina svjetlosti.

Metameri iz klasičnog modela vida 📷 MIT
Metameri iz klasičnog modela vida MIT

Većina slika i zvukova proizvedenih na ovaj način ne izgleda i ne zvuči nimalo poput primjera koje su modeli izvorno dobili. Te su slike obična gomila nasumičnih piksela, a zvukovi nerazumljiv šum. 

"Ljudi ih zapravo uopće ne mogu prepoznati. Ne izgledaju niti zvuče prirodno i nemaju protumačive karakteristike koje bi osoba mogla koristiti za klasificiranje predmeta ili riječi," objašnjavaju istraživači. Nalazi sugeriraju da su modeli nekako razvili vlastite invarijantnosti koje se razlikuju od onih u ljudskim perceptivnim sustavima.


Kontradiktorni trening

Čini se da svaki model razvija vlastitu jedinstvenu invarijantnost. Kad su metameri iz jednog modela prikazani drugom modelu, metameri su bili jednako neprepoznatljivi drugom modelu kao što su bili i ljudskim promatračima.

Modeli metamera su neprepoznatljivi ljudima čak i uz alternativne postupke obuke 📷 MIT
Modeli metamera su neprepoznatljivi ljudima čak i uz alternativne postupke obuke MIT

Metameri modela mogu postati prepoznatljiviji ljudima upotrebom kontradiktornog treninga, izvorno razvijenog za borbu protiv još jednog ograničenja modela prepoznavanja objekata po kojem uvođenje gotovo neprimjetnih promjena na sliku može dovesti do toga da je model pogrešno prepozna. Ovaj oblik treninga ima veliki učinak, ali istraživači ne znaju zašto. To će, kažu, biti tema budućih istraživanja.