AI i kraj zlatnog doba - koristite ih dok ne poskupe!
Anthropicova odluka da odsiječe OpenClaw i slične alate od standardnih pretplatnih limita nije iznenađenje - ona je logičan nastavak trenda . Pitanje nije je li se to moglo predvidjeti (moglo se), već koliko dugo još možemo računati na besplatni AI
Trenutno koristimo najjeftiniji AI koji ikad postoji, ali to neće još dugo trajati.
Usred rasprave o tome tko je izdao open-source zajednicu lako se izgubi jedna elementarna računica: komercijalni AI alati za početnike već sada koštaju između 10 i 20 dolara mjesečno i to za ograničene pakete.
| Alat | Cijena najjeftinijeg modela | Što se dobiva |
| GitHub Copilot | 10 dolara mjesečno | Code completion u IDE-u, chat, pull request asistencija |
| ChatGPT Plus | 20 dolara mjesečno | GPT-4o, napredno rezoniranje, generiranje slika (DALL-E) |
| Claude Pro | 20 dolara mjesečno | Claude Sonnet, Projects, duži kontekst, prioritetni pristup |
| Cursor Pro | 20 dolara mjesečno | AI IDE s code completionom, chat u kodu, pozadinsko indeksiranje repozitorija |
| Gemini Advanced | 20 dolara mjesečno | Gemini 1.5 Pro, integracija s Google Workspaceom |
Ono što nijedan od ovih paketa ne uključuje je neograničeno autonomno pokretanje agenata - što je točno ono čime je OpenClaw "zloupotrijebio" pretplatu. Anthropicov opis problema "švedskog stola" je ovaj puta točan: prosječan korisnik potroši nekoliko eura od 20-tak eura pretplate, dok autonomni agent može generirati troškove (na strani davatelja usluge) koji su desecima i stotinama puta veći.
Prošlogodišnji članak „Inference whales threaten AI startups" u Business Insideru tako spominje primjer „power usera“ koji je za pretplatu od 200 dolara mjesečno generirao ukupnih energijskih i drugih troškova na serverskoj strani u vrijednosti od preko 36.000 dolara.

Ovo je, usput, samo po sebi problem AI-ja kako je danas postavljen – na vrlo nezdravim osnovama. Naime, većina korisnika zapravo ne zna što bi sa svojim „chatbotom“, a o nekakvim „agentima“ da i ne govorimo, a ciljana skupina - oni koje svi komercijalni AI alati pokušavaju sebi privući - bez problema potroše resursa za sebe i stotine drugih. Pitanje je koliko uopće sadašnji model korištenja i naplate AI-ja ima smisla i koliko uopće masovan može biti.
Besplatni lokalni modeli i besplatni modeli u oblaku (kao Qwen3 via Ollama) za sada postoje jer ih netko subvencionira - bilo kao marketinšku aktivnost, bilo za skupljanje podataka. (Šokantno, znamo, ako Internetu i CIA-i ne možeš vjerovati, kome više možeš vjerovati…)
Ta era nestaje - Anthropic najavio što nas čeka.
Dva generatora, jedan prompt
Isti prompt (vizualizacija algoritma quicksort u jednoj HTML datoteci, 3D dugmad, klizač kojim podešavamo brzinu sortiranja) poslan je dvama potpuno različitim modelima. Rezultati to i pokazuju.

Model koji je napravio gornju HTML stranicu (Qwen3-coder 480b koji se izvodi u oblaku) se stvarno iskazao. Tamna tema s linearnim gradijentom u pozadini i tri vizualno različita 3D dugmeta s individualnim gradijentima: zeleni Sort, crveni Stop, plavi Reset.
Trake za sortiranje su u raznim bojama: narančasto-crvena (nesortirano), ljubičasta (aktivna usporedba), plava (pivot), zelena (sortirano). Koristi `AbortController` za čisto zaustavljanje asinkronih operacija. Ukupno 60 elemenata u nizu. Ništa od toga u zadanom promptu nije izrijekom navedeno, model je „sam“ (na osnovu s Interneta ranije pokradenog i anonimiziranog koda koji su ranije napisali ljudi) iz svoje velike baze zaključio da bi to moglo biti ono što se traži.
Na screenshotu vidimo konačni izgled - uredna, vizualno polirana aplikacija koja ne izgleda kao prototip.
Kako to radi Gemma 4

Lokalna verzija je funkcionalna, ali vizualno skromnija: svijetla tema, bijeli kontejner s borderom, dugmad plava bez individualnih boja, a zaustavljanje se rješava jednostavnom `isSorting` zastavicom. Trake su crvene (default), žute (comparing), zelene (pivot) - nema "sorted" stanja na kraju - sveukupno 50 elemenata u nizu.
Kod je opsežniji - pun komentara koji dokumentiraju svaku funkciju. Kontraproduktivno za veličinu datoteke - otprilike je kilobajt veća od one qwen3 kodera u oblaku - ali zgodno za one koji žele učiti iz koda.
Usporedba veličina
| Model | Veličina |
| Qwen3-coder 480b (cloud) | 12.716 B |
| Gemma 4 4b (lokalno) | 13.767 B |
Veliki, besplatni - ali sve sporiji
Qwen3-coder koji je generirao prvu stranicu nije lokalni model. Radi se o modelu s 480 milijardi parametara koji se izvršava na udaljenim serverima i trenutno je besplatno korištenje putem Ollame (qwen3-coder:480b-cloud). Prošli tjedan brzina generiranja tokena na ovom modelu bila je zadivljujuća. Ovaj tjedan – osjetljivi throttling.
Dok je lokalni model (gemma4:e4b) napisao kod za malo više od minute, qwen3-coder:480b-cloud je potrošio preko 5 minuta za isti posao. Stranica koju je proizveo je vizualno dojmljivija i funkcionalno bolja, ali razlika u vremenu potrebno za generiranje je više nego osjetna. Minutu čekamo pred monitorom; pet minuta je već pauzica u kojoj si idemo napraviti kavu, popričati s nekime dok se to krčka, prošetati se…
To je direktna posljedica popularnosti: besplatni model u oblaku se skalira dok iskorištavanje ne postane preskupo, a onda se usporava ili naplaćuje. Isti mehanizam koji je pogodio OpenClaw korisnike.
S druge strane, lokalni stroj koji pokreće Gemmu 4:4b radi pod punim opterećenjem. Task Manager pokazuje: GPU (RTX 4080): 90% iskorištenosti; 10,2/16,0 GB VRAM-a zauzeto, RAM: 18,6/32 GB (zbog korištenja najvećeg dozvoljenog kontekstnog prozora od 128k dio se offloada na CPU), CPU: oko 44% na 4,44 GHz.

Kartica sa 16 GB VRAM-a i zauzeće memorije od 10,2 GB za model s 4 milijarde parametara govori da je kvantizacija relativno niska (model nije agresivno sažet), ali i da je lokalni AI na "nespecijaliziranom potrošačkom hardveru" (iskreno - konfiguracija složena za igranje) – ograničenog dometa. Gemma 4 s 4 milijarde parametara naspram 480b Qwen3.
To nije kritika malog modela - 4 milijarde parametara na lokalnom GPU-u koji generira funkcionalnu interaktivnu web aplikaciju je impresivno samo po sebi. Ali „throttleani“ 480b model u oblaku i dalje pobjeđuje po kvaliteti čak i uz ograničenu brzinu.
Anthropicov potez s OpenClawom nije incident - to je najavljivanje „novog normalnog“. Besplatni AI - bilo lokalni, bilo u oblaku - postoji dok netko to može priuštiti ili dok mu to odgovara.
Nvidijin RTX 4080 s punim VRAM-om, i 90% GPU opterećenja samo da bi se pokrenuo mali lokalni model govori koliki je stvarni trošak besplatnog zaključivanja. A veliki modeli u oblaku postaju sporiji čim ih previše ljudi počne koristiti besplatno.
Jedina konstanta u ovoj priči jest da zlatno doba besplatnog AI-ja pri isteku roka.
Iskrena preporuka ovdje potpisanoga je da, ako vam to treba za posao, iskoristite sadašnje stanje dok traje – jednostavno ne postoji računica po kojom možemo ovoliko „sisati“ serverske farme za bizarno male novce kao što je sada slučaj.
Dapače, očekujem da će Anthropic u svom pokvarenjačkom načinu rada s lupetanjima o „umirovljenju umjetnih inteligencija“ i navodno snažnom moralnom protivljenju korištenja svojih modela za vojne ciljeva (ispostavilo se da na kraju i dalje pregovara s Pentagonom da bi im ipak prodao svoj AI…) uskoro početi zabranjivati i kombinirano korištenje lokalnih, besplatnih AI alata.
Primjerice Context-modea – možete ga, ako niste, dohvatiti s Githuba – upola smanjuje potrošnju tokena u Claude Codeu koji lokalno obrađuje što može, pa samo dio tokena šalje i prima od Anthropicovih servera u oblaku.
Jednostavno, netko treba prvi početi i zarađivati od AI alata, a do sada svi samo gomilaju gubitke.