Alchemist mijenja svojstva materijala na slikama
Model difuzije omogućava promjenu četiri atributa stvarnih slika i onih generiranih umjetnom inteligencijom: hrapavost, metalnost, početnu osnovnu boju objekta i prozirnost
Istraživači MIT-ovog Laboratorija za računalnu znanost i umjetnu inteligenciju CSAIL i Google Research osmislili su model difuzije koji može promijeniti materijalna svojstva objekata na slikama. Njihov Alchemist naime omogućava promjenu četiri atributa stvarnih slika i onih generiranih umjetnom inteligencijom: hrapavost, metalnost, početnu osnovnu boju objekta (albedo) i prozirnost.
Model difuzije
Kao model difuzije može se unijeti bilo koja fotografija i potom prilagoditi svako svojstvo unutar kontinuirane skale od -1 do 1 kako bi se stvorio novi vizual. Ove mogućnosti uređivanja fotografija mogle bi se, kažu tvorci Alchemista, iskoristiti i za poboljšanje modela u videoigrama, s njima bi se mogle proširiti mogućnosti umjetne inteligencije u vizualnim efektima i obogatiti podaci o robotskoj obuci.
Čarolija počinje s modelom difuzije za uklanjanje šuma: istraživači su koristili Stable Diffusion 1.5, model teksta u sliku hvaljen zbog fotorealističnih rezultata i mogućnosti uređivanja. Prethodni rad temeljio se na popularnom modelu kako bi korisnicima omogućio promjene na višoj razini, poput zamjene objekata ili promjene dubine slika. Nasuprot tome, metoda koju će CSAIL i Google Research predstaviti na Konferenciji računalnog vida i prepoznavanja uzoraka CVPR usredotočuje se na atribute niske razine, revidirajući finije detalje svojstava materijala objekta s jedinstvenim sučeljem temeljenim na klizaču.
Kao Photoshop samo jednostavnije
Dok su prijašnji sustavi difuzije mogli izvući zeca iz šešira, Alchemist može transformirati tu istu životinju da izgleda prozirno; gumena patka sad može izgledati metalno, zlatna ribica izgubiti nijansu po kojoj je nazvana, a stara cipela vratiti svoj sjaj. Programi poput Photoshopa imaju slične mogućnosti, ali ovaj model mijenja svojstva materijala na puno jednostavniji način.
Alchemistove mogućnosti dizajna mogle bi pomoći u podešavanju izgleda različitih modela u videoigrama. Primjena takvog modela difuzije mogla bi pomoći kreatorima da ubrzaju proces dizajna i usavrše teksture, promijene elemente grafičkog dizajna, videa i filmskih efekata kako bi se poboljšali fotorealizam i postigli željeni izgled materijala.
Daljnja poboljšanja
Metoda bi, kažu, mogla poboljšati podatke robotske obuke za zadatke poput manipulacije. Upoznavanjem s više tekstura, strojevi bi mogli bolje razumjeti različite predmete koje će uhvatiti u stvarnom svijetu. Alchemist bi mogao pomoći i u klasifikaciji slike, analizirajući materijalne promjene koje ne uspijeva prepoznati neuronska mreža.
Alchemist je treniran na sintetičkom skupu podataka, nasumično uređujući atribute materijala od 1200 materijala primijenjenih na 100 javno dostupnih, jedinstvenih 3D objekata u Blenderu, popularnom alatu za dizajn računalne grafike. Istraživači sad žele proširiti njegove mogućnosti kako bi model mogao poboljšati grafiku na razini scene i pomoći u zaključivanju svojstava materijala iz slika.