Objavljen je novi GenAI model za ilustracije, Stable Diffusion 3, s boljim prikazom teksta

Alati za izradu ilustracija na temelju tekstualnih opisa vrlo brzo napreduju, a svakom novom iteracijom donose poboljšanja u određenom segmentu. Kod Stable Diffusiona poboljšan je prikaz tipografije

Sandro Vrbanus četvrtak, 13. lipnja 2024. u 16:02

Startup Stability AI službeno je lansirao svoj novi difuzijski model za generiranje ilustracija iz tekstualnih zadataka, Stable Diffusion 3. Najnapredniji je to otvoreni "text-to-image" model na svijetu, potvrdilo je istraživanje, u kojem su ispitanici rezultate tog modela proglasili boljima od onih kod, primjerice, sustava DALL·E 3 ili Midjourney v6. Posebno se novi SD3 ističe kad je riječ o preciznom praćenju zadataka napisanih u "promptu" te tipografiji, odnosno prikazu teksta na sintetiziranim ilustracijama.

Kompaktan i moćan

Model SD3 zasnovan je na 8 milijardi parametara, a samim time može ga se izvoditi na standardnim korisničkim računalima i grafičkim karticama, a ne samo na moćnim računalima i poslužiteljima u oblaku. Njegovi tvorci ističu da kao takav, SD3 može stati u 24GB VRAM-a kartice RTX 4090, gdje mu za generiranje ilustracije veličine 1.024x1.024 piksela u 50 iteracija treba tek 34 sekunde.

No, model će biti dostupan u više varijanti, veličine od 800 milijuna do 8 milijardi parametara. Od svih njih, trenutačno je za preuzimanje dostupan model Stable Diffusion 3 Medium, s 2 milijarde parametara, ali i dalje vrlo sposoban u izradi ilustracija.

Nova arhitektura modela posebnu je pozornost posvetila preciznom praćenju zadataka, pa će se na ilustracijama moći istaknuti više točnije iscrtanih detalja, tekst će biti ispisan točno i u tipografiji prema zahtjevu korisnika, uz zadržavanje visoke kvalitete slike i fleksibilnost kod kreiranja "promptova". Stability AI poručuje da će isti pristup kreiranju modela moći biti preslikan i na multimodalne alate, primjerice na modele za generiranje videa.