Umjetna inteligencija

Lokalni generatori slika – imaju li smisla?

Drago Galić nedjelja, 31. svibnja 2026. u 09:05

Isprobali smo trenutno najbolje generatore AI slika koji se mogu lokalno pokrenuti i usporedili ih s komercijalnim servisima. Mogu li se kvalitetom ili brzinom mjeriti s onim što moramo platiti?

Komercijalni servisi za generiranje slika nude impresivne rezultate, ali uz stalni trošak ukoliko trebamo veće količine ilustracija. Što se aspekta sigurnosti i privatnosti tiče, smatramo da je o njemu bespredmetno razglabati jer svako računalo spojeno na Internet, posebno ona s Windowsima ili MacOS-om smatramo od početka kompromitiranim i bez stvarne zaštite podataka, tako da to što ih dodatno svojevoljno šaljemo na tuđe servere ne znači nikakav dodatni rizik.

Lokalno pokretanje AI modela za generiranje slika mijenja jednadžbu. Nema pretplate, nema limita na broj generiranja, nema pitanja o tome kome pripada ono što smo stvorili. Postoji samo jedno pitanje: imamo li dovoljno snažan hardver?

Mi smo imali ASUS Ascent GX10 o kojem smo već pisali. Ovaj uređaj, poznat i kao NVIDIA DGX Spark je kompaktna AI računalna platforma namijenjena točno ovakvim zadacima. Dimenzijama podsjeća na mini-PC koji bi mogao stati u ladicu stola, ali unutra se krije hardver koji je bitno drukčiji od PC-a.

Srce sustava je NVIDIA GB10 SoC koji kombinira Grace CPU (ARM64 arhitektura, 20 jezgri) i Blackwell GPU u jednom čipu s 128 GB unificiranog memorijskog prostora. To unificiranje je ključno: nema podjele na RAM i VRAM - sva memorija dostupna je i procesoru i grafičkom akceleratoru istovremeno. Praktična implikacija je da modeli koji zahtijevaju 60 ili više gigabajta VRAM-a - a takvih je sve više - ovdje bez problema rade, dok bi na desktop sustavu i s Nvidijom RTX 5090 (32 GB VRAM) bili nedostupni.

Za usporedbu, model FLUX.2-dev, koji smo testirali, sam po sebi zauzima 64,4 GB - dakle 4× više nego RTX 4080 ili RTX 5060 Duo. Bez unificiranog memorijskog sustava tipa GX10, ovaj model ne možete niti učitati.

Instalacija: muko moja…

Instalacija lokalnih AI alata standardno podrazumijeva Docker kontejnere s integriranim okruženjima. Problem je što za ARM64 arhitekturu takvi kontejneri gotovo i ne postoje, a oni koji postoje nisu kompatibilni s CUDA 12.8 na GB10 SoC-u.

Rješenje je bila nativna Python instalacija u virtualnom okruženju. PyTorch je dostupan u CUDA 12.8 verziji za ARM64 od verzije 2.11.0, a ostatak ovisnosti (transformeri, safetensors, websockets) instalira se standardno. Jedina iznimka bila je torchaudio koji je dolazio s CUDA 13.0 - nepodudarnost koja je uzrokovala lažnu grešku pri pokretanju. Zaobilazno rješenje: izmjena jednog retka koda koja pretvara grešku u upozorenje (CUDA je inače retrokompatibilna, pa je sve radilo ispravno).

Za SwarmUI - koji koristi .NET 9 runtime - situacija je bila jednostavnija: .NET ima dobru podršku za  ARM64, a instalacijska skripta za SwarmUI radila je bez modifikacija.

Ukupno, od prvog SSH spajanja na GX10 do prve uspješno generirane slike prošlo je nekoliko sati intenzivnog rada.

Bez agentske AI  - u ovom slučaju Claude Code koji je autonomno rješavao probleme kompatibilnosti, ispravljao API pozive i dijagnosticirao zašto koji model ne radi - taj bi proces za prosječnog korisnika trajao dane ili bi potpuno odustao. Ako planirate slično postavljanje - AI je dio instalacije.

ComfyUI sučelje prema lokalnim modelima, ali na udaljenom headless Asusu Ascent GX10. Čini se da je grafička narav sučelja prednost, ali tu se varate...
ComfyUI sučelje prema lokalnim modelima, ali na udaljenom headless Asusu Ascent GX10. Čini se da je grafička narav sučelja prednost, ali tu se varate...

Sučelja: ComfyUI i SwarmUI

ComfyUI je „node-based“ vizualni editor u kojemu svaki korak generiranja - učitavanje modela, enkodiranje teksta, sampler, dekodiranje slike - predstavlja zasebni čvor koji vizualno spajamo vezama. Iznimna fleksibilnost ima cijenu: učenje traje, a ispravno povezivanje čvorova za novi model koji koristi drugačiji tekstni enkoder nije trivijalno. Dobra strana je da postoji golema zajednica koja dijeli gotove JSON datoteke s opisom „workflowa“ kako se to zove u ComfyUI.

SwarmUI je nadogradnja na ovaj paket koja dodaje klasično web sučelje - tekstualni okvir za prompt, klizači za parametre, padajući izbornik za model. Ispod haube koristi ComfyUI kao backend, ali korisniku ništa od toga nije vidljivo, na čemu smo tvorcima Swarma izuzetno zahvalni.

Ključna prednost je što SwarmUI automatski preuzima ispravne tekstne enkodere za svaki model. Ovo se pokazalo odlučujućim pri radu s FLUX.2-dev koji ne koristi standardni T5-XXL enkoder nego Mistral 3 Small - SwarmUI je to riješio bez ikakve ručne intervencije.

Za svakodnevnu kreativnu upotrebu: SwarmUI. Za istraživanje - ComfyUI. Šalimo se – koristite SwarmUI, zaboravite ComfyUI.

SwarmUI je nadogradnja ComfyUI-ja kojega potpuno zakriva i skriva. Neusporedivo lakši za korištenje
SwarmUI je nadogradnja ComfyUI-ja kojega potpuno zakriva i skriva. Neusporedivo lakši za korištenje

Modeli: od brze skice do fotografskog realizma

FLUX.1-schnell (Black Forest Labs)

Veličina: 23 GB | Koraci: 4 | Prosječno trajanje: ~44 s

Destilirani model koji postiže dobre rezultate u svega 4 koraka uzorkovanja. Izvorno je namijenjen brzim iteracijama i istraživanju ideja - zamislite ga kao "skicu" AI generiranja. Kvaliteta kompozicije je dobra, teksture solidne, ali fini detalji lica i kompleksne scene s više elemenata ponekad su pojednostavljeni. Na GX10 generira za 33–67 sekundi ovisno o složenosti prompta, što ga čini opcijom za rad u realnom vremenu.

 

SD 3.5 Large (Stability AI)

Veličina: 16,5 GB | Koraci: 30 | Prosječno trajanje: ~3 min

Zreli model treće generacije Stability AI koji je dostigao dobru ravnotežu između kvalitete i brzine. Trodimenzionalno razumijevanje scene daje mu prednost kod složenih kompozicija s više objekata. Posebno se ističe kod realističnih prikaza ljudi i arhitekture. Na GX10 generira za oko 3 minute što je prihvatljivo za profesionalni rad.


FLUX.2-dev (Black Forest Labs)

Veličina: 64,4 GB | Koraci: 20 | Prosječno trajanje: ~24 min

Trenutno najprecizniji otvoreni model za fotorealizam. Arhitektura se temelji na Rectified Flow Transformeru od 32 milijarde parametara koji koristi Mistral 3 kao tekstni enkoder umjesto standardnog T5-XXL. To znači da razumije složene promptove s više elemenata, održava konzistentnost detalja i postiže razinu fotografske uvjerljivosti rijetku kod lokalnih modela. Cijena je spooooroooost...  Otprilike - 24 minute po slici na 1024×1024 piksela na GX10 i nespojivo je s iterativnim kreativnim radom. Koristite ga za finalne slike kada znate točno što hoćete.

 

Qwen-Image-2512 (Alibaba)

Veličina: 57,7 GB | Koraci: 20 | Prosječno trajanje: ~2,5 min

Alibabina alternativa donosi jedan tehnički izazov: ComfyUI i SwarmUI trenutno ne podržavaju model jer njegov VAE koristi trodimenzionalne konvolucije (piše u model cardu – ne pitajte…) za koje standardna sučelja još nemaju implementaciju. Rješenje smo pronašli pokretanjem modela izravno kroz Hugging Face biblioteku diffusers. Da nije bilo Claudea  koji je marljivo pisao stotine redaka koda u Pythonu tu bismo odustali. „Sučelje“ koje ne zahtijeva grafička sučelja već supersposobnog AI agenta.

Rezultati što se tiče, ovi su dosljedni i predvidljivi: oko 145 sekundi po slici na 1024×1024 piksela, uz iznimnu konzistentnost - razlika između triju generiranja bila je svega 0,4 sekunde. Kompozicijsko razumijevanje stoji na razini SD 3.5 Large, s dobrim upravljanjem osvjetljenjem i detaljima.

Samo za verzirane u Pythonu i/ili pojačane AI agentima.

HunyuanImage 3.0: Izuzetni efekti osvjetljenja i sjena
HunyuanImage 3.0: Izuzetni efekti osvjetljenja i sjena
HunyuanImage 3.0 — image-to-image editiranje. Model fusionira više referentnih slika uz zadržavanje ključnih vizualnih elemenata.
HunyuanImage 3.0 — image-to-image editiranje. Model fusionira više referentnih slika uz zadržavanje ključnih vizualnih elemenata.

Testna metodologija

Za objektivnu usporedbu definirali smo tri reprezentativna prompta koji pokrivaju tipične primjene AI generiranja slika:

Prompt 1 - Fotografija prirode: "a photorealistic mountain landscape at golden hour, crystal clear lake reflection, dramatic clouds, sharp detail". Prompt testira sposobnost renderiranja prirodnih tekstura, osvjetljenja i refleksija.

Prompt 2 - Tehnička naslovnica: detaljan prompt za naslovnicu tehnološkog časopisa s trima AI računalnim platformama, lebdećim grafovima latencija i statistikama. Prompt je podulji, na engleskom, pa bi bio u italiku pa ga ovdje ne objavljujemo.  Namijenjen je testu razumijevanje složene kompozicije s više elemenata i tehničkih detalja.

Prompt 3 - Portret tima: "portrait of a diverse group of three software engineers collaborating around a monitor, natural office lighting, photorealistic, realistic faces, candid moment". Htjeli smo vidjeeti generiranje uvjerljivih ljudskih lica koje je tradicionalno najteži zadatak za AI modele. Ovo „diverse“ je dodano na insistiranje Claudea. Američki AI, američki prompt. U našem kontekstu daje neuvjerljive slike radnog okruženja, ali smo popustili.

Sve slike: rezolucija 1024×1024, seed 42 (ponovljivi rezultati), default sampler za svaki model.

Rezultati: brzina i kvaliteta

Model Priroda Naslovnica Ljudi Prosjek
FLUX.1-schnell 66,5 s 33,1 s 33,3 s 44,3 s
SD 3.5 Large 175,3 s 175,5 s 167,2 s 172,7 s
FLUX.2-dev 1465,9 s 1445,2 s 1444,9 s 1452,0 s
Qwen-Image-2512 145,3 s 145,7 s 145,4 s 145,5 s

Specifikacije modela

Model Veličina Param. Koraci Tekst enkoder Preporuka
FLUX.1-schnell 23 GB 12 b 4 T5-xxl + clip Brze iteracije
SD 3.5 Large 16,5 GB 8 b 30 Triple CLIP Svakodnevni rad
FLUX.2-dev 64,4 GB 32 b 20 Mistral 3 Finalne slike
Qwen-Image-2512 57,7 GB ~30 b 20 Qwen2.5-VL Istraživanje (mučenje, mazohizam)

Analiza rezultata otkriva jasnu hijerarhiju: FLUX.1-schnell je jedini model sposoban za rad u realnom vremenu (~44 s), SD 3.5 Large i Qwen-Image-2512 nalaze se u sličnom razredu (~2–3 min), dok FLUX.2-dev zahtijeva strpljenje od 24 minute.

Zanimljivo je da Qwen-Image-2512 i SD 3.5 Large imaju skoro identična prosječna vremena generiranja (145 vs 173 sekundi), ali koriste potpuno različite arhitekture i sučelja. Za SD 3.5 Large dovoljan je SwarmUI; za Qwen potrebna je Python skripta. SD 3.5 Large na nižim brzinama daje u nekim kategorijama bolju kvalitetu od FLUX.2-dev, posebno za prikaze arhitekture i enterijera.

Usporedba s komercijalnim servisima

Kriterij FLUX.1-schnell SD 3.5 Large FLUX.2-dev Qwen-Image-2512 Bing MAI-2e Gemini Flash
Brzina ~44 s ~3 min ~24 min ~2,5 min ~15 s ~15 s
Privatnost Potpuna Potpuna Potpuna Potpuna Nikakva Nikakva
Lica i anatomija Dobro Vrlo dobro Odlično Dobro Odlično Izvrsno
Složene scene Solidno Odlično Odlično Dobro Odlično Odlično
Fotografski realizam Solidno Dobro Odlično Dobro Odlično Odlično
Cijena po slici 0 (hw amort.) 0 (hw amort.) 0 (hw am.) 0 (hw amort.) Besplatno Besplatno
Limit generiranja Neograničeno Neograničeno Neograničeno Neograničeno 200/dan ~100/dan

Iste smo promptove testirali na dvama besplatnim komercijalnim servisima kako bismo imali referentnu točku.

Bing Image Creator koristi Microsoftov model MAI-Image-2e jer se DALL-E 3 gasi. Svaki korisnik dobiva 15 brzih generiranja dnevno i do 200 standardnih. Generiranje traje 10–20 sekundi. Model ima tendenciju dodavati tekst naslova u sliku čak i kad to nije traženo - naš tehnološki prompt producirao je "TECH FRONTIERS: AI Compute Showdown" - što je posve beskorisno. Grafičari mrze kad im se netko tipografski trpa u sliku, a posebno kad to radi AI koji nema pojma o tome kakva je ostala tipografija na webu ili u tisku. Izuzetno loša karakteristika za profesionalnu uporabu tim prije jer zanemaruje „negativni prompt“ – onaj gdje kažete što ne smije biti na slici.

Google Gemini (Flash tier) generira u 15–20 sekundi. Prompt za ljude producirao je vjerojatno najrealističniju fotografiju od svih testiranih opcija - tim s prirodnim izrazima lica, autentičnim uredskim ambijentom i koherentnim kodom na ekranu. Gemini preferira horizontalne kompozicije i „življe tonove“, odnosno posve fantastične boje koje vrište „AI!“.

Kvalitativno, komercijalni servisi i dalje imaju prednost u brzini i uvjerljivosti za sve tri kategorije prompta. Međutim, razlika više nije ona koja je bila prije godinu dana. FLUX.2-dev parira komercijalnoj konkurenciji u fotografskom realizmu - jedina razlika je što vam treba 24 minute umjesto 15 sekundi.

SD 3.5 Large za tri minute daje rezultate koji su ponekad u kategoriji "dovoljno dobro za profesionalnu primjenu".

Praktični savjeti za lokalno generiranje

Ono što smo naučili kroz testiranje može se sažeti u nekoliko konkretnih preporuka:

Koristite manji format za iterativni rad. Generiranje na 512×512 piksela 4–8× je brže nego na 1024×1024, a kompozicija, paleta i opći dojam slike su identični. Malu sliku koristite za provjeru funkcionira li prompt - tek kada ste zadovoljni rezultatom, generirajte u punoj rezoluciji. Alternativno, generirajte malu sliku i povećajte je AI upscalerom.

Smanjite broj koraka. FLUX.1-schnell je projektiran za 4 koraka i tu je najbrži. SD 3.5 Large daje prihvatljive rezultate već na 15 koraka umjesto zadanih 30 - uštedjet ćete 50% vremena. FLUX.2-dev možete probati na 10 koraka umjesto 20 uz umjereni gubitak detalja. Eksperimentirajte sa smanjivanjem koraka odozdo prema gore dok ne nađete minimalni broj koji daje prihvatljivi rezultat.

Koristite seed za konzistentnost. Fiksirani seed omogućuje uspoređivanje varijacija istog prompta pod jednakim uvjetima. Koristite random seed tek kada ste zadovoljni promptom i tražite raznolikost.

Paralelizacija za FLUX.2-dev. Budući da generiranje traje 24 minute, možete pokrenuti generiranje, raditi nešto drugo, i pregledati rezultat kada završi - nema potrebe sjediti pred ekranom. SwarmUI ima job queue koji može primiti više zahtjeva odjednom.

Zaključak: ima li smisla?

Lokalni AI generatori slika dostigli su razinu na kojoj su praktično upotrebljivi za profesionalni rad - uz uvjet da imate odgovarajući hardver. ASUS Ascent GX10 je idealna platforma: može pokrenuti modele koji ne stanu na nijednu potrošačku grafičku karticu, tih je, kompaktan i ne zahtijeva posebno hlađenje.

Komercijalni servisi i dalje imaju prednost u brzini i jednostavnosti korištenja. Prednost lokalne instalacije je pak neograničeni broj generiranja i besplatno korištenje jednom kad imamo odgovarajući hardver.

SD 3.5 Large je naša preporuka za svakodnevni rad: dovoljna kvaliteta, prihvatljiva brzina.

FLUX.2-dev će biti iskoristiv tek nakon opsežne, višestruke optimizacije modela.

Qwen-Image-2512 je zanimljiv jer potječe od kineskog razvojnog tima s drugačijim pristupom treniranju, a kada ComfyUI dobije podršku za Qwen VAE - što je pitanje tjedana - postat će dostupan i korisnicima koji ne pišu Python. Dakle – strpljenja.

Ono što komercijalni servisi imaju, a lokalni modeli nemaju je brzina koja se mjeri sekundama i jednostavnost koja ne zahtijeva žongliranje s tri terminala na ekranu odjednom, pet browsera i natezanje s AI agentom.

Uređaj Asus Ascent GX10 ustupila je tvrtka Asbis Hrvatska, https://www.asbis.hr/


Usporedba generiranih slika

FLUX.1-schnell

FLUX.1-schnell, prompt 'priroda' - planinsko jezero sa zlatnim odsjajima neba. Generirano za 67 sekundi na ASUS Ascent GX10, 4 koraka uzorkovanja. Ako vjerujete da je Gospodar prstenova dokumentarac, onda ćete povjerovati i da je ovo fotografija
FLUX.1-schnell, prompt 'priroda' - planinsko jezero sa zlatnim odsjajima neba. Generirano za 67 sekundi na ASUS Ascent GX10, 4 koraka uzorkovanja. Ako vjerujete da je Gospodar prstenova dokumentarac, onda ćete povjerovati i da je ovo fotografija
FLUX.1-schnell, prompt 'naslovnica' - tri AI računalne platforme na tamnoj pozadini. Brzina modela vidljiva je u jednostavnijoj kompoziciji. Tekst nečitljiv, bitcoini su tokeni i tako…
FLUX.1-schnell, prompt 'naslovnica' - tri AI računalne platforme na tamnoj pozadini. Brzina modela vidljiva je u jednostavnijoj kompoziciji. Tekst nečitljiv, bitcoini su tokeni i tako…
FLUX.1-schnell, prompt 'ljudi' - tim softverskih inženjera. Model na 4 koraka daje solidnu kompoziciju, ali lica su manje detaljna nego kod sporijih modela.
FLUX.1-schnell, prompt 'ljudi' - tim softverskih inženjera. Model na 4 koraka daje solidnu kompoziciju, ali lica su manje detaljna nego kod sporijih modela.

 SD 3.5 Large

SD 3.5 Large, prompt 'priroda' - bogatija tekstura stijena i detaljniji odrazi u vodi u usporedbi s FLUX.1-schnell. Trajanje: oko 3 minute.
SD 3.5 Large, prompt 'priroda' - bogatija tekstura stijena i detaljniji odrazi u vodi u usporedbi s FLUX.1-schnell. Trajanje: oko 3 minute.
SD 3.5 Large, prompt 'naslovnica' - model interpretira kompoziciju sviše elemenata (uređaja). Dio prompta je posve zanemario (lebdeća statistika i grafovi) ali barem nije samovoljno dodao naslov. Nije za profesionalnu uporabu.
SD 3.5 Large, prompt 'naslovnica' - model interpretira kompoziciju sviše elemenata (uređaja). Dio prompta je posve zanemario (lebdeća statistika i grafovi) ali barem nije samovoljno dodao naslov. Nije za profesionalnu uporabu.
SD 3.5 Large, prompt 'ljudi' - scena ureda, osvjetljenje i izrazi lica.  Artefakti na stolu su bizarni – posebno dole lijevo, podlaktica prve osobe je predugačka, lica su voštana…
SD 3.5 Large, prompt 'ljudi' - scena ureda, osvjetljenje i izrazi lica.  Artefakti na stolu su bizarni – posebno dole lijevo, podlaktica prve osobe je predugačka, lica su voštana…

FLUX.2-dev

FLUX.2-dev, prompt 'priroda' - model daje tipične pastelne AI „fotografije“ prirode. K tome, treba mu 24 minute za izradu slike koja drugim modelima, za sličnu kvalitetu, traži desetak puta manje vremena.
FLUX.2-dev, prompt 'priroda' - model daje tipične pastelne AI „fotografije“ prirode. K tome, treba mu 24 minute za izradu slike koja drugim modelima, za sličnu kvalitetu, traži desetak puta manje vremena.
FLUX.2-dev, prompt 'naslovnica' – neupotrebljivo prvenstveno zbog samovoljno umetnutog „naslova“ koji je potpuni nonsens, iako je plutajući tekst s benchmarcima čitljiv. Neupotrebljivo za profesionalni rad.
FLUX.2-dev, prompt 'naslovnica' – neupotrebljivo prvenstveno zbog samovoljno umetnutog „naslova“ koji je potpuni nonsens, iako je plutajući tekst s benchmarcima čitljiv. Neupotrebljivo za profesionalni rad.
FLUX.2-dev, prompt 'ljudi' - portret s uvjerljivim anatomskim detaljima lica uz cijenu od 24 minute čekanja, a prstići su i dalje AI prstići…
FLUX.2-dev, prompt 'ljudi' - portret s uvjerljivim anatomskim detaljima lica uz cijenu od 24 minute čekanja, a prstići su i dalje AI prstići…

Qwen-Image-2512

Qwen-Image-2512, prompt 'priroda' - planinska scena u „zlatnom satu“. Generirano za 145 sekundi. Gospodar prstenova po tko zna koji put.
Qwen-Image-2512, prompt 'priroda' - planinska scena u „zlatnom satu“. Generirano za 145 sekundi. Gospodar prstenova po tko zna koji put.
Qwen-Image-2512, prompt 'portret' - studijski portret s plitkom dubinom oštrine. Qwen pokazuje dobro razumijevanje osvjetljenja i kompozicije. Općenito jedna od boljih slika na ovom testu.
Qwen-Image-2512, prompt 'portret' - studijski portret s plitkom dubinom oštrine. Qwen pokazuje dobro razumijevanje osvjetljenja i kompozicije. Općenito jedna od boljih slika na ovom testu.
Qwen-Image-2512, prompt 'grad' - cyberpunk scena s neonskim odrazima. Konzistentno trajanje od ~145 s neovisno o složenosti prompta. Latinični natpisi besmisleni, u znakovnom pismu nismo doma pa ne možemo suditi…
Qwen-Image-2512, prompt 'grad' - cyberpunk scena s neonskim odrazima. Konzistentno trajanje od ~145 s neovisno o složenosti prompta. Latinični natpisi besmisleni, u znakovnom pismu nismo doma pa ne možemo suditi…

Bing Image Creator

Bing Image Creator (MAI-Image-2e), prompt 'naslovnica' - model automatski dodaje naslove poput 'TECH FRONTIERS'. Generirano za oko 15 sekundi.
Bing Image Creator (MAI-Image-2e), prompt 'naslovnica' - model automatski dodaje naslove poput 'TECH FRONTIERS'. Generirano za oko 15 sekundi.
Bing Image Creator (MAI-Image-2e), prompt 'priroda' - dramatična planinska scena s molom u prvom planu.
Bing Image Creator (MAI-Image-2e), prompt 'priroda' - dramatična planinska scena s molom u prvom planu.
Bing Image Creator (MAI-Image-2e), prompt 'ljudi' - raznolik tim u urednom studijskom okruženju. Lica su dobro definirana, ali radni stol je posve umjetan i neuvjerljiv
Bing Image Creator (MAI-Image-2e), prompt 'ljudi' - raznolik tim u urednom studijskom okruženju. Lica su dobro definirana, ali radni stol je posve umjetan i neuvjerljiv

Google Gemini (Flash)

Google Gemini (Flash), prompt 'priroda' - widescreen kompozicija jer iz nekog razloga Gemini sam po sebi preferira horizontalne kadrove i pretjerane boje.
Google Gemini (Flash), prompt 'priroda' - widescreen kompozicija jer iz nekog razloga Gemini sam po sebi preferira horizontalne kadrove i pretjerane boje.
Google Gemini (Flash), prompt 'naslovnica' - 'NEXT-GEN COMPUTE' naslovnica s H100 GPU-om i AI akceleratorom. Tekst je koherentan i čitljiv, ali na kraju se dobije posve neupotrebljiva slika
Google Gemini (Flash), prompt 'naslovnica' - 'NEXT-GEN COMPUTE' naslovnica s H100 GPU-om i AI akceleratorom. Tekst je koherentan i čitljiv, ali na kraju se dobije posve neupotrebljiva slika
Google Gemini (Flash), prompt 'ljudi' - najrealističniji prikaz tima od svih testiranih opcija, s prirodnim izrazima lica i autentičnim uredskim ambijentom, ako zanemarimo pretjerani „diverse“ i bizarno okrenuti monitor
Google Gemini (Flash), prompt 'ljudi' - najrealističniji prikaz tima od svih testiranih opcija, s prirodnim izrazima lica i autentičnim uredskim ambijentom, ako zanemarimo pretjerani „diverse“ i bizarno okrenuti monitor

Hardverski zahtjevi GPU: diskretna grafička kartica s Vulkan podrškom (NVIDIA, AMD, Intel Arc). Integrirani GPU i čisti CPU rad nisu podržani. RAM: minimalno 4 GB; preporučeno 8 GB+. Pohrana: ~200 MB za instalaciju + prostor za obrađene slike.
Dobro Potpuno besplatan i otvorenog koda - nema pretplate ni vodenih žigova. Intuitivno sučelje, drag-and-drop, batch obrada više slika odjednom. Više AI modela za različite vrste sadržaja (fotografija, anime, ilustracija). Odlični rezultati na AI generiranim slikama i fotografijama. CLI verzija (upscayl-ncnn) za automatizaciju i skriptiranje.
Loše Zahtijeva diskretnu grafičku karticu s podrškom za Vulkan - ne radi na iGPU/CPU. Ne popravlja zamagljene ili defokusirane slike. Nema kontrole nad pojedinim dijelovima slike (lokalni upscaling). Veći faktori (8×) mogu unijeti artefakte na nekim vrstama sadržaja.
Ukupan dojam Kvaliteta rezultata premašuje sve što možete dobiti besplatno, a jednostavnost korištenja čini ga dostupnim i netehničnim korisnicima.
Cijena Besplatno (open source, AGPLv3)
URL https://upscayl.org  |  https://github.com/upscayl/upscayl/releases/latest