Objavljen je novi GenAI model za ilustracije, Stable Diffusion 3, s boljim prikazom teksta
Alati za izradu ilustracija na temelju tekstualnih opisa vrlo brzo napreduju, a svakom novom iteracijom donose poboljšanja u određenom segmentu. Kod Stable Diffusiona poboljšan je prikaz tipografije
Startup Stability AI službeno je lansirao svoj novi difuzijski model za generiranje ilustracija iz tekstualnih zadataka, Stable Diffusion 3. Najnapredniji je to otvoreni "text-to-image" model na svijetu, potvrdilo je istraživanje, u kojem su ispitanici rezultate tog modela proglasili boljima od onih kod, primjerice, sustava DALL·E 3 ili Midjourney v6. Posebno se novi SD3 ističe kad je riječ o preciznom praćenju zadataka napisanih u "promptu" te tipografiji, odnosno prikazu teksta na sintetiziranim ilustracijama.
Kompaktan i moćan
Model SD3 zasnovan je na 8 milijardi parametara, a samim time može ga se izvoditi na standardnim korisničkim računalima i grafičkim karticama, a ne samo na moćnim računalima i poslužiteljima u oblaku. Njegovi tvorci ističu da kao takav, SD3 može stati u 24GB VRAM-a kartice RTX 4090, gdje mu za generiranje ilustracije veličine 1.024x1.024 piksela u 50 iteracija treba tek 34 sekunde.
No, model će biti dostupan u više varijanti, veličine od 800 milijuna do 8 milijardi parametara. Od svih njih, trenutačno je za preuzimanje dostupan model Stable Diffusion 3 Medium, s 2 milijarde parametara, ali i dalje vrlo sposoban u izradi ilustracija.
Nova arhitektura modela posebnu je pozornost posvetila preciznom praćenju zadataka, pa će se na ilustracijama moći istaknuti više točnije iscrtanih detalja, tekst će biti ispisan točno i u tipografiji prema zahtjevu korisnika, uz zadržavanje visoke kvalitete slike i fleksibilnost kod kreiranja "promptova". Stability AI poručuje da će isti pristup kreiranju modela moći biti preslikan i na multimodalne alate, primjerice na modele za generiranje videa.