Imagen, Googleov sustav koji stvara ilustracije na temelju teksta

Fascinantne mogućnosti umjetne inteligencije koja je u stanju stvarati fotorealistične slike prikazao je Google. Njihov sustav ne samo da razumije prirodni jezik, nego ga i vizualno interpretira

Sandro Vrbanus srijeda, 25. svibnja 2022. u 10:02

Prošloga smo mjeseca mogli vidjeti kako to izgleda kada se sustav umjetne inteligencije OpenAI upogoni za stvaranje ilustracija na temelju tekstualnih naredbi. Njihov se projekt naziva DALL·E 2, oslanja se na umjetnu inteligenciju kako bi prvo razumio naredbe, a potom ih pretvorio u vizualni prikaz onoga što je napisano, u bilo kojem slikarskom ili fotorealističnom stilu.

Samo koji tjedan nakon ovoga, i Googleovi su stručnjaci prikazali mogućnosti svojeg sustava – nešto različitog pristupa ali slične namjene i jednako tako zapanjujućih rezultata. Njihov AI sustav naziva se Imagen, a Googleovi ga stručnjaci predstavljaju kao text-to-image difuzijski model sa stupnjem fotorealizma bez presedana i s dubokim razumijevanjem prirodnog jezika. Oslanja se na jezične modele koji "razumiju" kontekst napisanoga, kao i na generatore slika koji iz uputa stvaraju finalni proizvod.

Ono što istraživači ističu jest da su iskoristili generičke jezične modele, trenirane samo na tekstu te shvatili da su oni iznimno efikasni u stvaranju teksta na temelju kojeg se može stvoriti slika. Stvorili su i poseban benchmark test, DrawBench, koji procjenjuje vjernost text-to-image sustava. Možda ne toliko iznenađujuće, njihov Imagen je po tom benchmarku pobijedio ranije spomenuti DALL·E 2.

Uz ovaj tekst donosimo primjere ilustracija koje je Imagen načinio, a ispod svake od njih je tekstualni "zadatak" koji mu je bio postavljen. Iz Googlea, slično kao i u OpenAI-u, smatraju da ovako moćni generatori slika otvaraju mogućnost za mnoge manipulacije i razne druge etičke probleme. Iz tog razloga odlučili su primjere rezultata prikazati na svojem webu, ali i ne pustiti demo varijantu Imagena u javnost.

Svjesni su da bi sustav mogao lako biti iskorišten za nepoželjne svrhe, ali i da podatkovni setovi na kojima je treniran mogu sadržavati razne društvene stereotipe, nepoželjne stavove, kao i štetne, omalovažavajuće i druge uvredljive asocijacije povezane s raznim manjinskim skupinama – što je još jedan od razloga zašto za sada javnost neće dobiti priliku isprobati ovaj sustav. No, to ne znači da se ne možemo diviti njegovim prvim rezultatima…