Strojni vid koji imitira biološki

Još jedno navodno revolucionarno istraživanje iz područja umjetne inteligencije, još jedan način da se umjetni vid trenira na način na koji mislimo da ljudski mozak vidi…

Drago Galić nedjelja, 25. svibnja 2025. u 17:15

Tim istraživača iz Instituta za bazične znanosti (IBS), Sveučilišta Yonsei i Instituta Max Planck razvio je novu tehniku umjetne inteligencije koja približava strojni vid načinu na koji ljudski mozak obrađuje vizualne informacije. Metoda nazvana Lp-Convolution poboljšava točnost i učinkovitost sustava za prepoznavanje slika, istovremeno smanjujući računalne zahtjeve tradicionalnih AI modela.

Kao što znamo, ljudski mozak brzo identificira važne značajke unutar složenih vizualnih scena, razinu učinkovitosti koju konvencionalni AI sustavi teško postižu. U stanju smo „krajičkom oka“ uočiti bilo prijetnju, bilo neku zanimljivost u trenutku, dok umjetna inteligencija uglavnom analizira sliku piksel po piksel kako ljudski mozak nikada ne radi jer jednostavno nema dovoljno „procesorskog“ kapaciteta za takvu obradu.

Konvolucijske neuronske mreže (CNN), najčešće korišteni modeli za prepoznavanje slika, analiziraju slike koristeći male, fiksne filtere kvadratnog oblika. Ovaj dizajn ograničava njihovu sposobnost otkrivanja širih obrazaca u fragmentiranim podacima.

Vision Transformeri (ViT) nedavno su nadmašili CNN-ove evaluacijom cijelih slika istovremeno. Međutim, zahtijevaju ogromnu računalnu snagu i velike skupove podataka, što ih čini manje izvedivim za praktičnu primjenu.

U stvarnom vizualnom korteksu mozga, neuroni su povezani široko oko središnje točke, s jačinom veze koja se postupno mijenja s udaljenošću. Ova prostorna povezanost slijedi zvonoliku krivulju poznatu kao "Gaussova distribucija", omogućujući mozgu integraciju vizualnih informacija iz središta i okolnih područja.

Inspiriran načinom na koji vizualni korteks mozga selektivno obrađuje informacije, istraživački tim razvio je Lp-Convolution, metodu koja koristi „multivarijatnu p-generaliziranu normalnu distribuciju (MPND)“ (svak' tko ima doktorat ili barem magisterij iz matematike shvatit će bez problema o čemu se  radi…) za dinamičko preoblikovanje CNN filtera. Za razliku od tradicionalnih CNN-ova, Lp-Convolution omogućuje AI modelima prilagodbu oblika filtera, rastezanje horizontalno ili vertikalno ovisno o zadatku, slično kako ljudski mozak selektivno fokusira na relevantne detalje.

Ovo otkriće rješava dugogodišnji izazov u AI istraživanju. Jednostavno povećanje veličine filtera u CNN-ovima obično ne poboljšava performanse, unatoč dodavanju više parametara. Lp-Convolution prevladava ovo ograničenje uvođenjem fleksibilnih, biološki inspiriranih obrazaca povezivanja.

U testovima na standardnim skupovima podataka za klasifikaciju slikaLp-Convolution značajno je poboljšao točnost na klasičnim modelima poput AlexNeta i modernim arhitekturama poput RepLKNeta. Metoda se također pokazala robusnom protiv oštećenih podataka, što predstavlja izazov u primjenama AI u stvarnom svijetu.

U stvarnom vizualnom korteksu mozga, neuroni su široko i glatko povezani oko središnje točke, s jačinom veze koja se postupno mijenja s udaljenošću (a, b). Ova prostorna povezanost slijedi zvonoliku krivulju poznatu kao 'Gaussova distribucija', omogućujući mozgu integraciju vizualnih informacija ne samo iz središta već i iz okolnih područja. Nasuprot tome, tradicionalne Konvolucijske neuronske mreže (CNN) obrađuju informacije tako da se neuroni fokusiraju na fiksno pravokutno područje (npr. 3×3, 5×5, itd.) (c, d). CNN filtri kreću se preko slike u pravilnim intervalima, izvlačeći informacije na uniforman način, što ograničava njihovu sposobnost da uhvate odnose između udaljenih vizualnih elemenata ili da selektivno reagiraju na temelju važnosti.  📷 Izvor: Institut za bazične znanosti
U stvarnom vizualnom korteksu mozga, neuroni su široko i glatko povezani oko središnje točke, s jačinom veze koja se postupno mijenja s udaljenošću (a, b). Ova prostorna povezanost slijedi zvonoliku krivulju poznatu kao 'Gaussova distribucija', omogućujući mozgu integraciju vizualnih informacija ne samo iz središta već i iz okolnih područja. Nasuprot tome, tradicionalne Konvolucijske neuronske mreže (CNN) obrađuju informacije tako da se neuroni fokusiraju na fiksno pravokutno područje (npr. 3×3, 5×5, itd.) (c, d). CNN filtri kreću se preko slike u pravilnim intervalima, izvlačeći informacije na uniforman način, što ograničava njihovu sposobnost da uhvate odnose između udaljenih vizualnih elemenata ili da selektivno reagiraju na temelju važnosti. Izvor: Institut za bazične znanosti

Istraživači su otkrili da kada Lp-maske korištene u njihovoj metodi nalikuju Gaussovoj distribuciji, unutarnji obrasci obrade AI-ja odgovaraju biološkoj neuronskoj aktivnosti, što je potvrđeno usporedbama s podacima iz mozga - miša.

Inovacija mogla bi tvrde mogla unaprijediti područja poput autonomne vožnje, medicinske dijagnostike i robotike, omogućujući prilagodljiviji strojni vid u promjenjivim uvjetima.

Istraživački model je javno dostupan na Githubu.