AI i kraj zlatnog doba - koristite ih dok ne poskupe!

Anthropicova odluka da odsiječe OpenClaw i slične alate od standardnih pretplatnih limita nije iznenađenje - ona je logičan nastavak trenda . Pitanje nije je li se to moglo predvidjeti (moglo se), već koliko dugo još možemo računati na besplatni AI

Drago Galić srijeda, 8. travnja 2026. u 06:30
📷 AI ilustracija
AI ilustracija

Trenutno koristimo najjeftiniji AI koji ikad postoji, ali to neće još dugo trajati.  

Usred rasprave o tome tko je izdao open-source zajednicu lako se izgubi jedna elementarna računica: komercijalni AI alati za početnike već sada koštaju između 10 i 20 dolara mjesečno i to za ograničene pakete.

Alat Cijena najjeftinijeg modela Što se dobiva
 GitHub Copilot  10 dolara mjesečno Code completion u IDE-u, chat, pull request asistencija
 ChatGPT Plus  20 dolara mjesečno GPT-4o, napredno rezoniranje, generiranje slika (DALL-E)
 Claude Pro  20 dolara mjesečno Claude Sonnet, Projects, duži kontekst, prioritetni pristup
 Cursor Pro  20 dolara mjesečno AI IDE s code completionom, chat u kodu, pozadinsko indeksiranje repozitorija
 Gemini Advanced  20 dolara mjesečno Gemini 1.5 Pro, integracija s Google Workspaceom

Ono što nijedan od ovih paketa ne uključuje je neograničeno autonomno pokretanje agenata - što je točno ono čime je OpenClaw "zloupotrijebio" pretplatu. Anthropicov opis problema "švedskog stola" je ovaj puta točan: prosječan korisnik potroši nekoliko eura od 20-tak eura pretplate, dok autonomni agent može generirati troškove (na strani davatelja usluge) koji su desecima i stotinama puta veći.

Prošlogodišnji članak „Inference whales threaten AI startups" u Business Insideru tako spominje primjer „power usera“ koji je za pretplatu od 200 dolara mjesečno generirao ukupnih energijskih i drugih troškova na serverskoj strani u vrijednosti od preko 36.000 dolara.

Ovo je, usput, samo po sebi problem AI-ja kako je danas postavljen – na vrlo nezdravim osnovama. Naime, većina korisnika zapravo ne zna što bi sa svojim „chatbotom“, a o nekakvim „agentima“ da i ne govorimo, a ciljana skupina - oni koje svi komercijalni AI alati pokušavaju sebi privući - bez problema potroše resursa za sebe i stotine drugih. Pitanje je koliko uopće sadašnji model korištenja i naplate AI-ja ima smisla i koliko uopće masovan može biti.

Besplatni lokalni modeli i besplatni modeli u oblaku (kao Qwen3 via Ollama) za sada postoje jer ih netko subvencionira - bilo kao marketinšku aktivnost, bilo za skupljanje podataka. (Šokantno, znamo, ako Internetu i CIA-i ne možeš vjerovati, kome više možeš vjerovati…)

Ta era nestaje - Anthropic  najavio što nas čeka.

Dva generatora, jedan prompt

Isti prompt (vizualizacija algoritma quicksort u jednoj HTML datoteci, 3D dugmad, klizač kojim podešavamo brzinu sortiranja) poslan je dvama potpuno različitim modelima. Rezultati to i pokazuju.

Qwen3-coder 480b (cloud, via Ollama) 📷 Izvor: autor
Qwen3-coder 480b (cloud, via Ollama) Izvor: autor

Model koji je napravio gornju HTML stranicu (Qwen3-coder 480b koji se izvodi u oblaku) se stvarno iskazao. Tamna tema s linearnim gradijentom u pozadini i tri vizualno različita 3D dugmeta s individualnim gradijentima: zeleni Sort, crveni Stop, plavi Reset.

Trake za sortiranje su u raznim bojama: narančasto-crvena (nesortirano), ljubičasta (aktivna usporedba), plava (pivot), zelena (sortirano). Koristi `AbortController` za čisto zaustavljanje asinkronih operacija. Ukupno 60 elemenata u nizu. Ništa od toga u zadanom promptu nije izrijekom navedeno, model je „sam“ (na osnovu s Interneta ranije pokradenog i anonimiziranog koda koji su ranije napisali ljudi) iz svoje velike baze zaključio da bi to moglo biti ono što se traži.

Na screenshotu vidimo konačni izgled - uredna, vizualno polirana aplikacija koja ne izgleda kao prototip.

Kako to radi Gemma 4

Gemma 4 (4b parametara, lokalno)
Gemma 4 (4b parametara, lokalno)

Lokalna verzija je funkcionalna, ali vizualno skromnija: svijetla tema, bijeli kontejner s borderom, dugmad plava bez individualnih boja, a zaustavljanje se rješava jednostavnom `isSorting` zastavicom. Trake su crvene (default), žute (comparing), zelene (pivot) - nema "sorted" stanja na kraju - sveukupno 50 elemenata u nizu.

Kod je opsežniji - pun komentara koji dokumentiraju svaku funkciju. Kontraproduktivno za veličinu datoteke - otprilike je kilobajt veća od one qwen3 kodera u oblaku - ali zgodno za one koji žele učiti iz koda.

Usporedba veličina

Model  Veličina
 Qwen3-coder 480b (cloud) 12.716 B
 Gemma 4 4b (lokalno) 13.767 B

Veliki, besplatni - ali sve sporiji

Qwen3-coder koji je generirao prvu stranicu nije lokalni model. Radi se o modelu s 480 milijardi parametara koji se izvršava na udaljenim serverima i trenutno je besplatno korištenje putem Ollame (qwen3-coder:480b-cloud). Prošli tjedan brzina generiranja tokena na ovom modelu bila je zadivljujuća. Ovaj tjedan – osjetljivi throttling.

Dok je lokalni model (gemma4:e4b) napisao kod za malo više od minute, qwen3-coder:480b-cloud je potrošio preko 5 minuta za isti posao. Stranica koju je proizveo je vizualno dojmljivija i funkcionalno bolja, ali razlika u vremenu potrebno za generiranje je više nego osjetna. Minutu čekamo pred monitorom; pet minuta je već pauzica u kojoj si idemo napraviti kavu, popričati s nekime dok se to krčka, prošetati se…

To je direktna posljedica popularnosti: besplatni model u oblaku se skalira dok iskorištavanje ne postane preskupo, a onda se usporava ili naplaćuje. Isti mehanizam koji je pogodio OpenClaw korisnike.

S druge strane, lokalni stroj koji pokreće Gemmu 4:4b radi pod punim opterećenjem. Task Manager pokazuje: GPU (RTX 4080): 90% iskorištenosti; 10,2/16,0 GB VRAM-a zauzeto, RAM: 18,6/32 GB (zbog korištenja najvećeg dozvoljenog kontekstnog prozora od 128k dio se offloada na CPU), CPU: oko 44% na 4,44 GHz.

GPU, CPU i memorijsko zauzeće tijekom korištenja relativno malog lokalnog modela od 4 milijarde parametara sa 128k kontekstom
GPU, CPU i memorijsko zauzeće tijekom korištenja relativno malog lokalnog modela od 4 milijarde parametara sa 128k kontekstom

Kartica sa 16 GB VRAM-a i zauzeće memorije od 10,2 GB za model s 4 milijarde parametara govori da je kvantizacija relativno niska (model nije agresivno sažet), ali i da je lokalni AI na "nespecijaliziranom potrošačkom hardveru" (iskreno - konfiguracija složena za igranje) – ograničenog dometa. Gemma 4 s 4 milijarde parametara naspram 480b Qwen3.

To nije kritika malog modela - 4 milijarde parametara na lokalnom GPU-u koji generira funkcionalnu interaktivnu web aplikaciju je impresivno samo po sebi. Ali „throttleani“ 480b model u oblaku i dalje pobjeđuje po kvaliteti čak i uz ograničenu brzinu.

Anthropicov potez s OpenClawom nije incident - to je najavljivanje „novog normalnog“. Besplatni AI - bilo lokalni, bilo u oblaku  - postoji dok netko to može priuštiti ili dok mu to odgovara.

Nvidijin RTX 4080 s punim VRAM-om, i 90% GPU opterećenja samo da bi se pokrenuo mali lokalni model govori koliki je stvarni trošak besplatnog zaključivanja. A veliki modeli u oblaku postaju sporiji čim ih previše ljudi počne koristiti besplatno.

Jedina konstanta u ovoj priči jest da zlatno doba besplatnog AI-ja pri isteku roka.

Iskrena preporuka ovdje potpisanoga je da, ako vam to treba za posao, iskoristite sadašnje stanje dok traje – jednostavno ne postoji računica po kojom možemo ovoliko „sisati“ serverske farme za bizarno male novce kao što je sada slučaj.

Dapače, očekujem da će Anthropic u svom pokvarenjačkom načinu rada s lupetanjima o „umirovljenju umjetnih inteligencija“ i navodno snažnom moralnom protivljenju korištenja svojih modela za vojne ciljeva (ispostavilo se da na kraju i dalje pregovara s Pentagonom da bi im ipak prodao svoj AI…) uskoro početi zabranjivati i kombinirano korištenje lokalnih, besplatnih AI alata.

Primjerice Context-modea – možete ga, ako niste, dohvatiti s Githuba – upola smanjuje potrošnju tokena u Claude Codeu koji lokalno obrađuje što može, pa samo dio tokena šalje i prima od Anthropicovih servera u oblaku.

Jednostavno, netko treba prvi početi i zarađivati od AI alata, a do sada svi samo gomilaju gubitke.