DALL·E 3 bolje razumije promptove, zahvaljujući ChatGPT-u

OpenAI predstavio je svoj novi sustav za generiranje ilustracija, koji koristi snagu jezičnog modela da bi bolje razumijevao zadatke i pretvarao ih u još bolje, preciznije i detaljnije digitalne slike

Sandro Vrbanus petak, 22. rujna 2023. u 09:13

Organizacija OpenAI izišla je u javnost s prvim pojedinostima vezanima za njihov popularni sustav za stvaranje digitalne umjetnosti, DALL·E. Treća verzija ovog alata najavljena je za sada u obliku istraživačkog previewa, a opisana kao veliko unaprjeđenje, primarno u pogledu razumijevanja onoga što korisnik želi.

Moderni sustavi za pretvaranje teksta u sliku, primijetili su iz OpenAI-ja, često ignoriraju pojedine riječi ili opise, što korisnike tjera na dodatno "igranje" s promptovima učenje procesa kako napisati bolji i precizniji zadatak za svaki od tih sustava. DALL·E 3 će tome doskočiti tako što će iskoristiti moć velikog jezičnog modela, ChatGPT, koji je nastao pod istim krovom OpenAI-ja.

Kraćim uputama do boljih rezultata

U simbiozi, ova će dva modela dati daleko bolje, preciznije i detaljnije rezultate, barem ako je vjerovati prvim objavljenim primjerima. Jednom kada korisnik napiše svoj zadatak, prvo će jezični model učiniti ono za što je specijaliziran – protumačit će napisani tekst. Potom će samostalno "prevesti" korisnikov zadatak u niz promptova, koji će biti prilagođeni za sustav DALL·E 3 te ga proslijediti njemu na daljnju obradu.

Isti prompt: lijevo DALL·E 2, desno DALL·E 3 (An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula)
Isti prompt: lijevo DALL·E 2, desno DALL·E 3 (An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula)

No, dobijete li sliku koja vam nije potpuno u skladu sa zamislima, moći ćete je jednostavnim naputkom (kao što se to može učiniti s odgovorima ChatGPT-a) usmjeriti u željenom pravcu te lako izraditi njezine varijacije. Svime ovime ChatGPT postaje partner u "brainstormingu" i daje korisnicima veću kreativnost, a prema viđenome razumijevanje promptova u sustavu DALL·E 3 moglo bi nadmašiti i trenutačnog lidera po tom pitanju, sustav Midjourney v5.

Značajna poboljšanja

Prema prvim objavljenim primjerima, vidljiv je i značajan napredak po pitanju manipuliranja tekstom. Tako će ubuduće biti moguće zadati tekst, koji želimo dobiti ispisan na ilustraciji, a novi DALL·E će ga integrirati u sliku onako kako je i napisan (a ne, kao do sada, ispisati tek škrabotine koje su podsjećale na tekst).

Načinjeni su i pozitivni pomaci kad je riječ o autorskim pravima ljudskih umjetnika, na čijim je djelima sustav treniran. Treća verzija ovog alata odbijat će zahtjeve za stvaranjem ilustracija u stilu nekog živućeg umjetnika, a svima je omogućeno zatražiti da se njihova djela ne koriste prilikom treniranja umjetne inteligencije. Neće biti moguće stvoriti niti lažne slike slavnih osoba, a i dalje na njemu nema sadržaja koji bi poticao mržnju, nasilje ili bio seksualno eksplicitan. Organizacija radi i na novim alatima za prepoznavanje AI generiranih slika, pa već imaju interni alat koji može otkriti one slike, koje je izradio DALL·E 3.

DALL·E 3 će biti javno dostupan početkom listopada, ali samo za korisnike koji plaćaju ili ChatGPT Plus ili Enterprise pretplatu za OpenAI-jeve sustave. Kao i kod prethodne verzije, sve kreacije koje nastanu uz pomoć novog AI ilustratora u potpunosti su u vlasništvu samog korisnika i besplatno ih se te bez ikakve zadrške smije koristiti, pa i u komercijalne svrhe.