Lokalni generatori slika – imaju li smisla?
Isprobali smo trenutno najbolje generatore AI slika koji se mogu lokalno pokrenuti i usporedili ih s komercijalnim servisima. Mogu li se kvalitetom ili brzinom mjeriti s onim što moramo platiti?
Komercijalni servisi za generiranje slika nude impresivne rezultate, ali uz stalni trošak ukoliko trebamo veće količine ilustracija. Što se aspekta sigurnosti i privatnosti tiče, smatramo da je o njemu bespredmetno razglabati jer svako računalo spojeno na Internet, posebno ona s Windowsima ili MacOS-om smatramo od početka kompromitiranim i bez stvarne zaštite podataka, tako da to što ih dodatno svojevoljno šaljemo na tuđe servere ne znači nikakav dodatni rizik.
Lokalno pokretanje AI modela za generiranje slika mijenja jednadžbu. Nema pretplate, nema limita na broj generiranja, nema pitanja o tome kome pripada ono što smo stvorili. Postoji samo jedno pitanje: imamo li dovoljno snažan hardver?
Mi smo imali ASUS Ascent GX10 o kojem smo već pisali. Ovaj uređaj, poznat i kao NVIDIA DGX Spark je kompaktna AI računalna platforma namijenjena točno ovakvim zadacima. Dimenzijama podsjeća na mini-PC koji bi mogao stati u ladicu stola, ali unutra se krije hardver koji je bitno drukčiji od PC-a.
Srce sustava je NVIDIA GB10 SoC koji kombinira Grace CPU (ARM64 arhitektura, 20 jezgri) i Blackwell GPU u jednom čipu s 128 GB unificiranog memorijskog prostora. To unificiranje je ključno: nema podjele na RAM i VRAM - sva memorija dostupna je i procesoru i grafičkom akceleratoru istovremeno. Praktična implikacija je da modeli koji zahtijevaju 60 ili više gigabajta VRAM-a - a takvih je sve više - ovdje bez problema rade, dok bi na desktop sustavu i s Nvidijom RTX 5090 (32 GB VRAM) bili nedostupni.
Za usporedbu, model FLUX.2-dev, koji smo testirali, sam po sebi zauzima 64,4 GB - dakle 4× više nego RTX 4080 ili RTX 5060 Duo. Bez unificiranog memorijskog sustava tipa GX10, ovaj model ne možete niti učitati.
Instalacija: muko moja…
Instalacija lokalnih AI alata standardno podrazumijeva Docker kontejnere s integriranim okruženjima. Problem je što za ARM64 arhitekturu takvi kontejneri gotovo i ne postoje, a oni koji postoje nisu kompatibilni s CUDA 12.8 na GB10 SoC-u.
Rješenje je bila nativna Python instalacija u virtualnom okruženju. PyTorch je dostupan u CUDA 12.8 verziji za ARM64 od verzije 2.11.0, a ostatak ovisnosti (transformeri, safetensors, websockets) instalira se standardno. Jedina iznimka bila je torchaudio koji je dolazio s CUDA 13.0 - nepodudarnost koja je uzrokovala lažnu grešku pri pokretanju. Zaobilazno rješenje: izmjena jednog retka koda koja pretvara grešku u upozorenje (CUDA je inače retrokompatibilna, pa je sve radilo ispravno).
Za SwarmUI - koji koristi .NET 9 runtime - situacija je bila jednostavnija: .NET ima dobru podršku za ARM64, a instalacijska skripta za SwarmUI radila je bez modifikacija.
Ukupno, od prvog SSH spajanja na GX10 do prve uspješno generirane slike prošlo je nekoliko sati intenzivnog rada.
Bez agentske AI - u ovom slučaju Claude Code koji je autonomno rješavao probleme kompatibilnosti, ispravljao API pozive i dijagnosticirao zašto koji model ne radi - taj bi proces za prosječnog korisnika trajao dane ili bi potpuno odustao. Ako planirate slično postavljanje - AI je dio instalacije.

Sučelja: ComfyUI i SwarmUI
ComfyUI je „node-based“ vizualni editor u kojemu svaki korak generiranja - učitavanje modela, enkodiranje teksta, sampler, dekodiranje slike - predstavlja zasebni čvor koji vizualno spajamo vezama. Iznimna fleksibilnost ima cijenu: učenje traje, a ispravno povezivanje čvorova za novi model koji koristi drugačiji tekstni enkoder nije trivijalno. Dobra strana je da postoji golema zajednica koja dijeli gotove JSON datoteke s opisom „workflowa“ kako se to zove u ComfyUI.
SwarmUI je nadogradnja na ovaj paket koja dodaje klasično web sučelje - tekstualni okvir za prompt, klizači za parametre, padajući izbornik za model. Ispod haube koristi ComfyUI kao backend, ali korisniku ništa od toga nije vidljivo, na čemu smo tvorcima Swarma izuzetno zahvalni.
Ključna prednost je što SwarmUI automatski preuzima ispravne tekstne enkodere za svaki model. Ovo se pokazalo odlučujućim pri radu s FLUX.2-dev koji ne koristi standardni T5-XXL enkoder nego Mistral 3 Small - SwarmUI je to riješio bez ikakve ručne intervencije.
Za svakodnevnu kreativnu upotrebu: SwarmUI. Za istraživanje - ComfyUI. Šalimo se – koristite SwarmUI, zaboravite ComfyUI.

Modeli: od brze skice do fotografskog realizma
FLUX.1-schnell (Black Forest Labs)
Veličina: 23 GB | Koraci: 4 | Prosječno trajanje: ~44 s

Destilirani model koji postiže dobre rezultate u svega 4 koraka uzorkovanja. Izvorno je namijenjen brzim iteracijama i istraživanju ideja - zamislite ga kao "skicu" AI generiranja. Kvaliteta kompozicije je dobra, teksture solidne, ali fini detalji lica i kompleksne scene s više elemenata ponekad su pojednostavljeni. Na GX10 generira za 33–67 sekundi ovisno o složenosti prompta, što ga čini opcijom za rad u realnom vremenu.
SD 3.5 Large (Stability AI)
Veličina: 16,5 GB | Koraci: 30 | Prosječno trajanje: ~3 min

Zreli model treće generacije Stability AI koji je dostigao dobru ravnotežu između kvalitete i brzine. Trodimenzionalno razumijevanje scene daje mu prednost kod složenih kompozicija s više objekata. Posebno se ističe kod realističnih prikaza ljudi i arhitekture. Na GX10 generira za oko 3 minute što je prihvatljivo za profesionalni rad.
FLUX.2-dev (Black Forest Labs)
Veličina: 64,4 GB | Koraci: 20 | Prosječno trajanje: ~24 min

Trenutno najprecizniji otvoreni model za fotorealizam. Arhitektura se temelji na Rectified Flow Transformeru od 32 milijarde parametara koji koristi Mistral 3 kao tekstni enkoder umjesto standardnog T5-XXL. To znači da razumije složene promptove s više elemenata, održava konzistentnost detalja i postiže razinu fotografske uvjerljivosti rijetku kod lokalnih modela. Cijena je spooooroooost... Otprilike - 24 minute po slici na 1024×1024 piksela na GX10 i nespojivo je s iterativnim kreativnim radom. Koristite ga za finalne slike kada znate točno što hoćete.
Qwen-Image-2512 (Alibaba)
Veličina: 57,7 GB | Koraci: 20 | Prosječno trajanje: ~2,5 min

Alibabina alternativa donosi jedan tehnički izazov: ComfyUI i SwarmUI trenutno ne podržavaju model jer njegov VAE koristi trodimenzionalne konvolucije (piše u model cardu – ne pitajte…) za koje standardna sučelja još nemaju implementaciju. Rješenje smo pronašli pokretanjem modela izravno kroz Hugging Face biblioteku diffusers. Da nije bilo Claudea koji je marljivo pisao stotine redaka koda u Pythonu tu bismo odustali. „Sučelje“ koje ne zahtijeva grafička sučelja već supersposobnog AI agenta.
Rezultati što se tiče, ovi su dosljedni i predvidljivi: oko 145 sekundi po slici na 1024×1024 piksela, uz iznimnu konzistentnost - razlika između triju generiranja bila je svega 0,4 sekunde. Kompozicijsko razumijevanje stoji na razini SD 3.5 Large, s dobrim upravljanjem osvjetljenjem i detaljima.
Samo za verzirane u Pythonu i/ili pojačane AI agentima.


Testna metodologija
Za objektivnu usporedbu definirali smo tri reprezentativna prompta koji pokrivaju tipične primjene AI generiranja slika:
Prompt 1 - Fotografija prirode: "a photorealistic mountain landscape at golden hour, crystal clear lake reflection, dramatic clouds, sharp detail". Prompt testira sposobnost renderiranja prirodnih tekstura, osvjetljenja i refleksija.
Prompt 2 - Tehnička naslovnica: detaljan prompt za naslovnicu tehnološkog časopisa s trima AI računalnim platformama, lebdećim grafovima latencija i statistikama. Prompt je podulji, na engleskom, pa bi bio u italiku pa ga ovdje ne objavljujemo. Namijenjen je testu razumijevanje složene kompozicije s više elemenata i tehničkih detalja.
Prompt 3 - Portret tima: "portrait of a diverse group of three software engineers collaborating around a monitor, natural office lighting, photorealistic, realistic faces, candid moment". Htjeli smo vidjeeti generiranje uvjerljivih ljudskih lica koje je tradicionalno najteži zadatak za AI modele. Ovo „diverse“ je dodano na insistiranje Claudea. Američki AI, američki prompt. U našem kontekstu daje neuvjerljive slike radnog okruženja, ali smo popustili.
Sve slike: rezolucija 1024×1024, seed 42 (ponovljivi rezultati), default sampler za svaki model.
Rezultati: brzina i kvaliteta
| Model | Priroda | Naslovnica | Ljudi | Prosjek |
| FLUX.1-schnell | 66,5 s | 33,1 s | 33,3 s | 44,3 s |
| SD 3.5 Large | 175,3 s | 175,5 s | 167,2 s | 172,7 s |
| FLUX.2-dev | 1465,9 s | 1445,2 s | 1444,9 s | 1452,0 s |
| Qwen-Image-2512 | 145,3 s | 145,7 s | 145,4 s | 145,5 s |

Specifikacije modela
| Model | Veličina | Param. | Koraci | Tekst enkoder | Preporuka |
| FLUX.1-schnell | 23 GB | 12 b | 4 | T5-xxl + clip | Brze iteracije |
| SD 3.5 Large | 16,5 GB | 8 b | 30 | Triple CLIP | Svakodnevni rad |
| FLUX.2-dev | 64,4 GB | 32 b | 20 | Mistral 3 | Finalne slike |
| Qwen-Image-2512 | 57,7 GB | ~30 b | 20 | Qwen2.5-VL | Istraživanje (mučenje, mazohizam) |
Analiza rezultata otkriva jasnu hijerarhiju: FLUX.1-schnell je jedini model sposoban za rad u realnom vremenu (~44 s), SD 3.5 Large i Qwen-Image-2512 nalaze se u sličnom razredu (~2–3 min), dok FLUX.2-dev zahtijeva strpljenje od 24 minute.
Zanimljivo je da Qwen-Image-2512 i SD 3.5 Large imaju skoro identična prosječna vremena generiranja (145 vs 173 sekundi), ali koriste potpuno različite arhitekture i sučelja. Za SD 3.5 Large dovoljan je SwarmUI; za Qwen potrebna je Python skripta. SD 3.5 Large na nižim brzinama daje u nekim kategorijama bolju kvalitetu od FLUX.2-dev, posebno za prikaze arhitekture i enterijera.

Usporedba s komercijalnim servisima
| Kriterij | FLUX.1-schnell | SD 3.5 Large | FLUX.2-dev | Qwen-Image-2512 | Bing MAI-2e | Gemini Flash |
| Brzina | ~44 s | ~3 min | ~24 min | ~2,5 min | ~15 s | ~15 s |
| Privatnost | Potpuna | Potpuna | Potpuna | Potpuna | Nikakva | Nikakva |
| Lica i anatomija | Dobro | Vrlo dobro | Odlično | Dobro | Odlično | Izvrsno |
| Složene scene | Solidno | Odlično | Odlično | Dobro | Odlično | Odlično |
| Fotografski realizam | Solidno | Dobro | Odlično | Dobro | Odlično | Odlično |
| Cijena po slici | 0 (hw amort.) | 0 (hw amort.) | 0 (hw am.) | 0 (hw amort.) | Besplatno | Besplatno |
| Limit generiranja | Neograničeno | Neograničeno | Neograničeno | Neograničeno | 200/dan | ~100/dan |
Iste smo promptove testirali na dvama besplatnim komercijalnim servisima kako bismo imali referentnu točku.
Bing Image Creator koristi Microsoftov model MAI-Image-2e jer se DALL-E 3 gasi. Svaki korisnik dobiva 15 brzih generiranja dnevno i do 200 standardnih. Generiranje traje 10–20 sekundi. Model ima tendenciju dodavati tekst naslova u sliku čak i kad to nije traženo - naš tehnološki prompt producirao je "TECH FRONTIERS: AI Compute Showdown" - što je posve beskorisno. Grafičari mrze kad im se netko tipografski trpa u sliku, a posebno kad to radi AI koji nema pojma o tome kakva je ostala tipografija na webu ili u tisku. Izuzetno loša karakteristika za profesionalnu uporabu tim prije jer zanemaruje „negativni prompt“ – onaj gdje kažete što ne smije biti na slici.
Google Gemini (Flash tier) generira u 15–20 sekundi. Prompt za ljude producirao je vjerojatno najrealističniju fotografiju od svih testiranih opcija - tim s prirodnim izrazima lica, autentičnim uredskim ambijentom i koherentnim kodom na ekranu. Gemini preferira horizontalne kompozicije i „življe tonove“, odnosno posve fantastične boje koje vrište „AI!“.
Kvalitativno, komercijalni servisi i dalje imaju prednost u brzini i uvjerljivosti za sve tri kategorije prompta. Međutim, razlika više nije ona koja je bila prije godinu dana. FLUX.2-dev parira komercijalnoj konkurenciji u fotografskom realizmu - jedina razlika je što vam treba 24 minute umjesto 15 sekundi.
SD 3.5 Large za tri minute daje rezultate koji su ponekad u kategoriji "dovoljno dobro za profesionalnu primjenu".

Praktični savjeti za lokalno generiranje
Ono što smo naučili kroz testiranje može se sažeti u nekoliko konkretnih preporuka:
Koristite manji format za iterativni rad. Generiranje na 512×512 piksela 4–8× je brže nego na 1024×1024, a kompozicija, paleta i opći dojam slike su identični. Malu sliku koristite za provjeru funkcionira li prompt - tek kada ste zadovoljni rezultatom, generirajte u punoj rezoluciji. Alternativno, generirajte malu sliku i povećajte je AI upscalerom.
Smanjite broj koraka. FLUX.1-schnell je projektiran za 4 koraka i tu je najbrži. SD 3.5 Large daje prihvatljive rezultate već na 15 koraka umjesto zadanih 30 - uštedjet ćete 50% vremena. FLUX.2-dev možete probati na 10 koraka umjesto 20 uz umjereni gubitak detalja. Eksperimentirajte sa smanjivanjem koraka odozdo prema gore dok ne nađete minimalni broj koji daje prihvatljivi rezultat.
Koristite seed za konzistentnost. Fiksirani seed omogućuje uspoređivanje varijacija istog prompta pod jednakim uvjetima. Koristite random seed tek kada ste zadovoljni promptom i tražite raznolikost.
Paralelizacija za FLUX.2-dev. Budući da generiranje traje 24 minute, možete pokrenuti generiranje, raditi nešto drugo, i pregledati rezultat kada završi - nema potrebe sjediti pred ekranom. SwarmUI ima job queue koji može primiti više zahtjeva odjednom.
Zaključak: ima li smisla?
Lokalni AI generatori slika dostigli su razinu na kojoj su praktično upotrebljivi za profesionalni rad - uz uvjet da imate odgovarajući hardver. ASUS Ascent GX10 je idealna platforma: može pokrenuti modele koji ne stanu na nijednu potrošačku grafičku karticu, tih je, kompaktan i ne zahtijeva posebno hlađenje.
Komercijalni servisi i dalje imaju prednost u brzini i jednostavnosti korištenja. Prednost lokalne instalacije je pak neograničeni broj generiranja i besplatno korištenje jednom kad imamo odgovarajući hardver.
SD 3.5 Large je naša preporuka za svakodnevni rad: dovoljna kvaliteta, prihvatljiva brzina.
FLUX.2-dev će biti iskoristiv tek nakon opsežne, višestruke optimizacije modela.
Qwen-Image-2512 je zanimljiv jer potječe od kineskog razvojnog tima s drugačijim pristupom treniranju, a kada ComfyUI dobije podršku za Qwen VAE - što je pitanje tjedana - postat će dostupan i korisnicima koji ne pišu Python. Dakle – strpljenja.
Ono što komercijalni servisi imaju, a lokalni modeli nemaju je brzina koja se mjeri sekundama i jednostavnost koja ne zahtijeva žongliranje s tri terminala na ekranu odjednom, pet browsera i natezanje s AI agentom.
Uređaj Asus Ascent GX10 ustupila je tvrtka Asbis Hrvatska, https://www.asbis.hr/
Usporedba generiranih slika
FLUX.1-schnell



SD 3.5 Large



FLUX.2-dev



Qwen-Image-2512



Bing Image Creator



Google Gemini (Flash)



| Hardverski zahtjevi | GPU: diskretna grafička kartica s Vulkan podrškom (NVIDIA, AMD, Intel Arc). Integrirani GPU i čisti CPU rad nisu podržani. RAM: minimalno 4 GB; preporučeno 8 GB+. Pohrana: ~200 MB za instalaciju + prostor za obrađene slike. |
| Dobro | Potpuno besplatan i otvorenog koda - nema pretplate ni vodenih žigova. Intuitivno sučelje, drag-and-drop, batch obrada više slika odjednom. Više AI modela za različite vrste sadržaja (fotografija, anime, ilustracija). Odlični rezultati na AI generiranim slikama i fotografijama. CLI verzija (upscayl-ncnn) za automatizaciju i skriptiranje. |
| Loše | Zahtijeva diskretnu grafičku karticu s podrškom za Vulkan - ne radi na iGPU/CPU. Ne popravlja zamagljene ili defokusirane slike. Nema kontrole nad pojedinim dijelovima slike (lokalni upscaling). Veći faktori (8×) mogu unijeti artefakte na nekim vrstama sadržaja. |
| Ukupan dojam | Kvaliteta rezultata premašuje sve što možete dobiti besplatno, a jednostavnost korištenja čini ga dostupnim i netehničnim korisnicima. |
| Cijena | Besplatno (open source, AGPLv3) |
| URL | https://upscayl.org | https://github.com/upscayl/upscayl/releases/latest |