Unificirana memorija, procesorski clusteri, lokalni AI… Gdje se potpisuje?!
Iako nisu svi sretni Appleovim Mac Studiom i Mac Minijem koji su istisnuli Mac Pro, trend pred nama bi mogla biti baš takva računala – s unificiranom memorijom i mogućnošću povezivanja u radne clustere umjesto nadogradnje komponenti

Kao netko tko nikad nije mogao shvatiti oduševljenje Appleovim računalima, autor ovih redova začudo misli suprotno od kolege Podnara: Appleov potez „ubijanja“ Macintosha Pro i prelazak na Mac Mini i Mac Studio rješenje je koje nema veze s odgajanjem nove vrste kupaca, već se radi o tehnološkom imperativu koji će i drugi slijediti.
Koncept unificirane memorije koju ova donose nije nov, ali je sada implementiran na posve novim tehnološkim osnovama.
Stvarna rješenja za stvarne probleme
Oni koji koriste LLM-ove uočili su problem na korisničkoj strani: stvarno moćni modeli su praktično dostupni jedino kao vanjska usluga na udaljenim serverima i to preko nekog od pretplatničkih modela. Cijene ovih pretplata variraju, ali njihovo korištenje vrlo brzo postane vrlo skupo.
Svi davatelji usluga daju mogućnost raznih razina korištenja, ali količina tokena uključena u neki pretplatni model jako se brzo potroši. Korištenje sada najboljeg koderskog pomagala - koje je po mišljenju ovdje potpisanoga Claude Code s njegovim agentima - jednostavno ždere skupe pretplatničke tokene kao Pacman one točkice u labirintu.
Postoje, naravno, metode da se prođe jeftinije. Moguće je složiti lokalnu „draft-verify“ kaskadu gdje se mali, ali brzi model koristi za draft koji se šalje velikom (ali sporom) modelu na odobrenje ili poboljšanje, čime se uvelike ubrzava proces. Primjer koji koristi modele na udaljenom serveru bi bio:
Claude Code → localhost proxy → Ollama/vLLM/nešto treće… (draft) → Claude API (verify/improve draft)
Umjesto korištenja modela na serveru, neki veći model može biti i lokalno instaliran, čime sve postaje besplatno.
Na kanalu Alexa Ziskinda možete vidjeti da vrlo mali lokalni model od 0,5 milijardi parametara u ovakvoj petlji dobiva odobrenje velikog modela u preko 80% slučajeva i efektivno dobivamo dvostruko ili trostruko brže generiranje tokena nego korištenjem samo velikog modela.
U stvarnosti, naravno, stvari nisu tako jednostavne.
Mali, ali nije ni tehničar

Kod analize većih dijelova koda i restrukturiranja mali modeli smješteni u malim memorijama brzo izgube kontekst pa broj odbijenih rješenja u draft-verify kaskadi raste do neupotrebljive sporosti.
Nova generacija računala: Mac Mini, Mac Studio i DGX Spark rješavaju dva velika problema naslijeđenih arhitektura koje imamo na osobnim računalima.
Prvi problem je neunificirana memorija. Ovo znači da naša grafička kartica ima vrlo efikasni i superparalelizirani čip koji ne može pristupiti svoj memoriji računala kad mu treba iako glavni procesor ne radi skoro ništa, a glavna memorija zjapi prazna.
Drugi problem je da CPU x86/x64 arhitekture ako i primi offload dekodiranja lokalnog modela toliko spor da se ne može ni izdaleka mjeriti s performansama GPU-a.
Unificirana memorija i unificiran procesori
Appleovi Mac Mini i Studio te Nvidia DGX Spark kao referentni dizajn rješavaju ovaj problem svaki na svoj način.
| Uređaj | Proizvođač | Cijena (USD) | Status | Napomena |
| DGX Spark | NVIDIA | 4.699 | U prodaji | Referentni dizajn |
| Ascent GX10 | ASUS | 2.999 – 4.100 | U prodaji | Najjeftiniji |
| EdgeXpert MS-C931 | MSI | 3.999 | U prodaji | CDFF |
| Pro Max GB10 | Dell | 3.999 | Odgođen | Kasni isporuka |
| ZGX Nano AI Station | HP | Oko 4.000 | Proljeće 2026 | Za velike tvrtke |
| DGX Station | razni | - | Proljeće 2026 | ASUS, Dell, GIGABYTE, MSI, Boxx, Supermicro |
*Cijene su za američko tržište, kod nas su više
Spark i inačice građene su oko superčipa GB10 Grace Blackwell. GPU i CPU dijele 128 GB LPDDR5x RAM propusnosti 273 GB/s.
Teoretski ovo je superračunalo jer doseže 1 petaFLOP u radu s FP4 numerikom koja se koristi u LLM-ovima. Koga više zanima o FP4 numerici u modelima – ovdje je dobro objašnjenje.

Svi modeli bazirani na Nvidijinom Sparku su u osnovi isti – razlikuju se po kućištu i cijeni. Testiranje performansi pokazuje da su razlike unutar statističke greške, tako da je jedino na što trebate obratiti pažnju to kome od proizvođača više vjerujete ili koji je jeftiniji.
Sva ova „stolna superračunala“ su pravljena tako da se mogu spajati u clustere i to korištenjem superbrze veze fizički izvedene preko QSFP portova brzine 200-400 Gb/s.
Potrebni QSFP kabeli dolaze, pak, po cijenama od kojih će vam zasuziti oči.
Mac Studio i Mini
Iako Apple (po nama mudro) ne reklamira Mac Studio kao „AI računalo“ radi se o stroju koji spada u istu kategoriju: koristi se unificirana memorija, postoji mogućnost spajanja više jedinica u clustere i donosi ogromno ubrzanje izvođenja lokalnih modela u odnosu na klasične konfiguracije.
| Model | RAM | Propusnost | Cijena (USD) | AI performanse |
| Mac Studio M4 Max (base) | 48–128 GB | 546 GB/s | 1.999 – 2.499 | Dobre |
| Mac Studio M3 Ultra | Do 512 GB | 819 GB/s | 3.999 | Najviša memorijska propusnost |
| M5 Ultra | Do 128GB+ | Oko 614 GB/s | - | Dolazi ovog ljeta |
*Cijene su za američko tržište, kod nas su više
Kao što možete vidjeti, apsolutno najveća prednost Macova u odnosu na Nvidijin DXG Spark je memorijska propusnost koja je kod svih modela daleko viša – u slučaju M3 modela čak 819 Gb/s u odnosu na Sparkovih 273 Gb/s. Zbog toga je i generiranje tokena brže na Mac Studiju nego na Nvidijijom Sparku i ostalim iz njega izvedenim modelima.
Prema testovima na Internetu, ovo su rezultati za ove platforme:
Generiranje tokena (dekodiranje)
| Uređaj | Tokena/s (Llama 3.1 8B) | Memorijska propusnost |
| Mac Studio M3 Ultra | ~82 tok/s | 819 GB/s |
| Mac Studio M4 Max | ~61 tok/s | 546 GB/s |
| DGX Spark / GB10 | ~50 tok/s | 273 GB/s |
| Mac Mini M4 Pro | ~36 tok/s | ~273 GB/s |
| RTX 5090 (desktop) | 3–5x brže od Sparka | GDDR7 |
Uočite po Nvidiju neugodnu činjenicu da Mac Mini M4 Pro koji košta 1.400 dolara, ima tek nešto manju brzinu generiranja tokena od višestruko skupljeg DGX Sparka: 36 tokena/s naprama Sparkovih 50 tokena/s.

RTX 5090, pak, zahvaljujući 32 GB GDDR7 memorije generira od 150 do 250 tokena/s, a upola je jeftinija od Sparka. (Doduše, na nj moramo priključiti i ostatak računala…)
Da ne biste pomislili da je onda čitava stvar sa Sparkom prevara, treba objasniti da je radnja u kojoj ova platforma nema premca među konkurencijom tzv. „prefill“ odnosno procesiranje ulaznih tokena, gdje tenzorske jezgre u Blackwellu jednostavno nadmašuju sve druge sisteme. Za lokalnu uporabu je ovo nenadmašno za: RAG; procesiranje dokumenata velikih duljina do 100.000 tokena ili čak i većih ili korištenje više agenata koji dodaju svoj input u velike promptove. U testovima je tako Spark procesirao preko 2.451 tokena/s (Qwen 4B.q4).
Rješenje problema brzog čitanja tokena (prefill) i sporog generiranja je kombiniranje Macova i Sparkova kako bi se iskoristile jake strane obje platforme.
Ekipa iz EXO Labsa tako je napravila cluster od Mac Studija M3 Ultra i dva DGX Spark računala čime su dobili gotovo 3 puta bolje ukupne performanse preffila i generiranja tokena. Sparkovi su tu za prefill , a Mac Studio je zadužen za generiranje tokena gdje briljira zahvaljujući većoj memorijskoj propusnosti.

Za koga je to?
Ako vam trebaju lokalno pokretani modeli od 70 do 200 milijardi parametara, svi gore spomenuti uređaji nude unificiranu memoriju od 128 GB koja je dovoljna za lokalni rad. To znači da nema posezanja za vanjskim uslugama i dijeljenja podataka s drugima.
Rješenje se čini idealno za korištenje unutar tvrtki koje svoje podatke i procedure žele držati lokalno.
Ova arhitektura omogućava i istodobno izvršavanje više manjih modela odjednom i agentski pristup rješavanju problema. Oni koji programiraju specifično za CUDA sustave, sada to mogu raditi lokalno na Sparku bez potrebe za prevođenjem na ciljnu platformu.
S druge strane, Apple sa svojim novim procesorima zapravo daje bitno veću brzinu generiranja tokena po manjoj cijeni. Mac Studio M3 Ultra je u SAD-u 700 dolara jeftiniji od Sparka, sa 60% boljim performansama u generiranju tokena.
Problem Sparku je i što se takmiči s proizvodom iz vlastite kuće – RTX 5090 s upola manjom cijenom proizvodi do pet puta više tokena u jedinici vremena.
Kupiti ili ne?
Usprkos zamjerkama trenutno dostupnim rješenjima, smatramo da je unificirana memorija ono što će zamijeniti klasične računalne konfiguracije. Postojeća arhitektura odvojenih memorija postala je prepreka lokalnog pokretanja AI modela.
Ipak, ako vam oni nisu nužni u svakodnevnom radu, trebalo bi sačekati sljedeću generaciju ovakvih uređaja ili čak onu iza nje.
Rekavši to, za razliku od kolege Podnara, inače ljubitelja i korisnika Macova, ja iz drugog tabora ovoga puta mislim da je Apple odlično prepoznao tehnološki imperativ.