MAGE spaja prepoznavanje i generiranje slike
MIT-ov Masked Generative Encoder (MAGE) može istovremeno točno identificirati slike i stvarati nove, nevjerojatno nalik stvarnima
Kad se spominju slike, računala posjeduju dvije izvanredne sposobnosti: mogu ih identificirati i ponovno generirati. A sad su istraživači MIT-ovog Laboratorija za računalnu znanost i umjetnu inteligenciju (CSAIL) istrenirali sustav tako da može sam zaključiti koji dijelovi slike nedostaju, što je zadatak koji zahtijeva duboko razumijevanje sadržaja slike. Uspješno popunjavajući praznine, Masked Generative Encoder (MAGE) postiže dva cilja u isto vrijeme: točno identificira slike i stvara nove, nevjerojatno nalik stvarnima.
Semantički tokeni
Predstavljen na konferenciji o računalnom vidu i prepoznavanju uzoraka CVPR 2023, MAGE omogućuje bezbroj potencijalnih primjena, poput identifikacije i klasifikacije objekata unutar slika, brzog učenja iz minimalnih primjera, stvaranja slika pod specifičnim uvjetima i poboljšanja postojećih slika.
Za razliku od drugih tehnika, MAGE ne radi s neobrađenim pikselima. Umjesto toga, on pretvara slike u "semantičke tokene", kompaktne, ali apstraktne verzije dijelova slike. Baš kao što riječi tvore rečenice, ovi tokeni stvaraju apstrahiranu verziju slike koja se može koristiti za složene zadatke obrade, a istovremeno čuva informacije u izvornoj slici. To se može uvježbati unutar samonadziranog okvira, što mu omogućuje preduvježbavanje na velikim skupovima podataka slika bez oznaka.
Modeliranje maskiranog tokena
Čarolija počinje kada MAGE počne koristiti "modeliranje maskiranog tokena". On nasumično skriva neke od tih tokena, stvarajući nepotpunu slagalicu, a zatim trenira neuronsku mrežu da popuni praznine. Tako uči razumjeti uzorke na slici i generirati nove.
MAGE može generirati realistične slike od nule, ali to nije sve: korisnici mogu odrediti kriterije po kojima će im MAGE generirati odgovarajuću sliku. Nije mu problem ni uređivati slike tako što će s njih ukloniti razne elemente, zadržavajući pritom njihov realističan izgled.
Impresivni reztultati
Zadaci prepoznavanja još su jedna jača strana za MAGE. Sa svojom sposobnošću prethodnog treniranja na velikim neoznačenim skupovima podataka, može klasificirati slike koristeći samo naučene prikaze. Štoviše, ističe se u učenju u nekoliko koraka, postižući impresivne rezultate na velikim skupovima podataka o slikama poput iMAGeNeta sa samo nekoliko označenih primjera.
Dakako, proces pretvaranja slika u tokene neizbježno dovodi do gubitka nekih informacija pa istraživači žele istražiti načine komprimiranja slika bez gubitka važnih detalja. Buduće istraživanje moglo bi uključivati i obuku MAGE-a na većim neoznačenim skupovima podataka, što bi moglo dovesti do još boljih performansi.