Alchemist mijenja svojstva materijala na slikama

Model difuzije omogućava promjenu četiri atributa stvarnih slika i onih generiranih umjetnom inteligencijom: hrapavost, metalnost, početnu osnovnu boju objekta i prozirnost

Mladen Smrekar ponedjeljak, 3. lipnja 2024. u 07:12
Alchemistove mogućnosti mogle bi pomoći u podešavanju izgleda različitih modela u videoigrama 📷 Alex Schipp/MIT CSAIL
Alchemistove mogućnosti mogle bi pomoći u podešavanju izgleda različitih modela u videoigrama Alex Schipp/MIT CSAIL

Istraživači MIT-ovog Laboratorija za računalnu znanost i umjetnu inteligenciju CSAIL i Google Research osmislili su model difuzije koji može promijeniti materijalna svojstva objekata na slikama. Njihov Alchemist naime omogućava promjenu četiri atributa stvarnih slika i onih generiranih umjetnom inteligencijom: hrapavost, metalnost, početnu osnovnu boju objekta (albedo) i prozirnost. 

Model difuzije

Kao model difuzije može se unijeti bilo koja fotografija i potom prilagoditi svako svojstvo unutar kontinuirane skale od -1 do 1 kako bi se stvorio novi vizual. Ove mogućnosti uređivanja fotografija mogle bi se, kažu tvorci Alchemista, iskoristiti i za poboljšanje modela u videoigrama, s njima bi se mogle proširiti mogućnosti umjetne inteligencije u vizualnim efektima i obogatiti podaci o robotskoj obuci.

Kvalitativna usporedba Alchemista (desno) s originalom (lijevo) i drugim metodama 📷 Prafull Sharma i sur.
Kvalitativna usporedba Alchemista (desno) s originalom (lijevo) i drugim metodama Prafull Sharma i sur.

Čarolija počinje s modelom difuzije za uklanjanje šuma: istraživači su koristili Stable Diffusion 1.5, model teksta u sliku hvaljen zbog fotorealističnih rezultata i mogućnosti uređivanja. Prethodni rad temeljio se na popularnom modelu kako bi korisnicima omogućio promjene na višoj razini, poput zamjene objekata ili promjene dubine slika. Nasuprot tome, metoda koju će CSAIL i Google Research predstaviti na Konferenciji računalnog vida i prepoznavanja uzoraka CVPR usredotočuje se na atribute niske razine, revidirajući finije detalje svojstava materijala objekta s jedinstvenim sučeljem temeljenim na klizaču.

Kao Photoshop samo jednostavnije

Dok su prijašnji sustavi difuzije mogli izvući zeca iz šešira, Alchemist može transformirati tu istu životinju da izgleda prozirno; gumena patka sad može izgledati metalno, zlatna ribica izgubiti nijansu po kojoj je nazvana, a stara cipela vratiti svoj sjaj. Programi poput Photoshopa imaju slične mogućnosti, ali ovaj model mijenja svojstva materijala na puno jednostavniji način.

Generiranje sintetičkog skupa podataka: svaki je objekt renderiran iz 15 nasumičnih kamera 📷 Prafull Sharma i sur.
Generiranje sintetičkog skupa podataka: svaki je objekt renderiran iz 15 nasumičnih kamera Prafull Sharma i sur.

Alchemistove mogućnosti dizajna mogle bi pomoći u podešavanju izgleda različitih modela u videoigrama. Primjena takvog modela difuzije mogla bi pomoći kreatorima da ubrzaju proces dizajna i usavrše teksture, promijene elemente grafičkog dizajna, videa i filmskih efekata kako bi se poboljšali fotorealizam i postigli željeni izgled materijala.

Daljnja poboljšanja

Metoda bi, kažu, mogla poboljšati podatke robotske obuke za zadatke poput manipulacije. Upoznavanjem s više tekstura, strojevi bi mogli bolje razumjeti različite predmete koje će uhvatiti u stvarnom svijetu. Alchemist bi mogao pomoći i u klasifikaciji slike, analizirajući materijalne promjene koje ne uspijeva prepoznati neuronska mreža.

Alchemist omogućava promjenu hrapavosti, metalnosti, početne osnovne boje i prozirnosti 📷 Prafull Sharma i sur.
Alchemist omogućava promjenu hrapavosti, metalnosti, početne osnovne boje i prozirnosti Prafull Sharma i sur.

Alchemist je treniran na sintetičkom skupu podataka, nasumično uređujući atribute materijala od 1200 materijala primijenjenih na 100 javno dostupnih, jedinstvenih 3D objekata u Blenderu, popularnom alatu za dizajn računalne grafike. Istraživači sad žele proširiti njegove mogućnosti kako bi model mogao poboljšati grafiku na razini scene i pomoći u zaključivanju svojstava materijala iz slika.