Tokenpokalipsa – termin koji objašnjava sve
Tvrtke koje su u veljači prijetile da bez korištenja AI-ja nema promaknuća sada mole zaposlenike da ga koriste manje. Što se dogodilo između? Stigao je račun. Poseban bonus – stvarna mjerenja pokazuju da tokene najmanje koriste inženjeri i koderi, a najviše oni bez „tvrdih“ tehničkih vještina – kakvo iznenađenje!
Prije dvije večeri je na CNBC-u među uvaženim voditeljima i gostima u odijelima sjedio u svojoj sivoj majici za teretanu Ed Zitron i rekao ono što odavna tvrdi – da AI balon nema nikakve zdrave osnove po kojima može rasti srazmjerno novcima koji su potrebni za njegovo održavanje.
Naslov videa na YouTubeu je poslastica svoje vrste: „Ed Zitron on CNBC: Generative AI Doesn't Work, And Big Tech Is Out Of Hypergrowth Ideas“.
Nemoj biti toliko kriptičan – reci nam što stvarno misliš…
Oni koji koriste LLM-ove u svakodnevnom poslu i prate sulude cifre koje se vrte oko izgradnje novih procesnih centara, ulaganja u OpenAI i Anthropic ovo znaju već neko vrijeme. Ono što je novo je da je mainstream medij poput CNBC-a to i sam shvatio. Doslovce unutar jednog tjedna – nakon curenja OpenAI-jevih financijskih izvješća za 2025. i 2024. i odluke o odgodi javne ponude dionica (IPO) za 2027. „ili kasnije“, narativ mainstream medija odjednom više nije „AGI samo šta nije stigao, svečani doček na autobusnom kolodvoru!“.
Čak su i velike korporacije koje su zdušno puhale u AI rog shvatile prije „analitičara“ i „provjerenih medija“ kamo sve vodi.
Naime, prije godinu dana te iste korporacije su gradile interne ljestvice tko troši više tokena („umjetne inteligencije“), a promaknuća vezale uz korištenje AI-ja. Danas te iste tvrtke gase ljestvice, uvode limite po zaposleniku i mole ljude da prijeđu na jeftinije modele. U američkim medijima fenomen je već dobio ime: tokenpokalipsa (tokenpocalypse).
Zanimljivo je da se AI u firmama nije srušio zato što ne radi. Srušio se zato što se naplaćuje po komercijalnim, a ne subvencioniranim cijenama po kojima su bili dostupni chatboti u pretplati (paušalu).
Dok su alati bili u pretplati, potrošnja je bila nevidljiva. Onda je GitHub 1. lipnja sve Copilot planove prebacio na naplatu po potrošnji, u "AI kreditima" vezanima uz tokene, po jedan cent za kredit. Kad iz paušala pređemo na brojilo, prvi put stvarno vidimo tko troši i na što. A mjerenja snajperski precizno ubijaju dosadašnji narativ. Vasilij Zajcev na aparatima…
Narativ je, podsjetimo se, glasio ovako: AI će transformirati rad visokokvalificiranih strukovnjaka. Inženjeri, programeri, pravnici, analitičari. Svaki potrošeni token je investicija u vrhunsku ekspertizu. Onda je 404 Media objavila audiosnimku internog sastanka Accenturea, na kojoj Justice Kwak, njihov voditelj strategije za agentni AI, kaže doslovno: "Iz internih podataka vidimo da token-potrošnju zapravo ne pokreću naši inženjeri. To su većinom ne-inženjeri koji rade upravo te stvari o kojima govorite." Te stvari su, konkretno, pretvaranje PDF-ova u prezentacijske slajdove. Najskuplji modeli na svijetu, trenirani na cjelokupnom ljudskom znanju, rade posao koji je nekad radio praktikant s Ctrl+C i Ctrl+V.
„Chef's kiss“ – rekli bi Ameri.
Ironija je dvostruka: CEO Accenturea Julie Sweet u veljači je zaposlenicima poručila da riskiraju promaknuća ako ne koriste AI. Zaposlenici su poslušali. I potrošili sve. Kwak sada na internim sastancima objašnjava da "AI postaje materijalna stavka u strukturi troškova", da je potrošnja "vrlo nepredvidiva" i da vodstvo na razini CFO-a, COO-a i CIO-a "još uvijek pita dobivamo li vrijednost za ono što trošimo".
Brojke iz ostatka industrije pokazuju da Accenture nije iznimka.
Atlassian je s pet milijuna dolara mjesečno (kolovoz 2025.) došao na više od petnaest milijuna u svibnju ove godine, s kursom prema 120 milijuna godišnje; ukinuli su neograničeni AI i uveli tablice na kojima svaki zaposlenik vidi koliko njegovo „zazivanje tokena“ košta firmu.
Adobe nije obnovio neograničeni pristup Claudeu, uz poruku zaposlenicima da "završe što stignu" do isteka.
Amazon je ugasio internu ljestvicu korištenja AI-ja, a dva tjedna kasnije zaposlenici su na Slacku otkrili token-limite za koje nisu ni znali da postoje.
Uber je nakon parole "koristite AI što više" uveo limit od 1500 dolara mjesečno po zaposleniku za agentne alate. Meta interno reže korištenje jer su troškovi prešli milijarde. Microsoft pregovara s DeepSeekom kao jeftinijim pogonom za Copilot i usput reže vlastite Claude licence. Posebna poslastica – Microsoft je ulagač u Anthropic i iznajmljuje im „compute“… ali koristi kineski DeepSeek.
You cannot make this shit up, što bi rekao Shakespeare.
Za osjećaj skale: Google se na ovogodišnjem I/O-u pohvalio da obrađuje preko 3,2 bilijarde tokena, a 375 globalnih korporacija troši više od bilijun tokena godišnje. U ožujku je Forbes još slavodobitno pisao o "tokenmaxxingu" kao statusnom simbolu, s primjerom startupa Writer gdje je pobjednik interne ljestvice potrošio gotovo 5,9 milijardi tokena. Četiri mjeseca kasnije, „tokenmaxxing“ je psovka.
Slijedi dio koji nas posebno zabavlja.
Dok tvrtke štede na jednom kraju, dobavljači modela na drugom kraju usavršavaju obračun. Uzmimo najsvježiji primjer: Anthropicov novi vrhunski model Fable 5 koji nam se ponovo u četvrtak vratio iz virtualnog Sibira i gulaga za AI.
Cijena po tokenu je dvostruka u odnosu na dosadašnji Opus (10 dolara za milijun ulaznih, 50 za milijun izlaznih), što je barem transparentno poskupljenje.
Ali - pravi je trik u obračunskoj jedinici. Fable 5 obavezno "razmišlja" prije svakog odgovora i to se razmišljanje ne može isključiti; pokušate li, API vam vrati grešku. To razmišljanje naplaćuje se kao izlazni tokeni, po najskupljoj tarifi. A sadržaj tog razmišljanja "po defaultu" uopće ne vidimo: model vrati blokove razmišljanja s praznim tekstom. Plaćamo, dakle, tokene čiji je sadržaj prazan string, u količini koju određuje model, a ne mi.
Toliko bolesno da se čak ne možemo ni naljutiti – zapravo se čak divimo takvoj perverziji.
Mo Bitar na svom kanalu usporedio je to s analogijom stanodavca koji kaže da stanarina nije poskupjela, ali da se mjesec odsad računa kao dvadeset dana.
I još nam naplati dane u kojima je "razmišljao o stanu", s tim da nam ne smije reći o čemu.
Korisnici bizarne načine obračuna tokena pokušavaju obuzdati na svoj način: postoje alati koji Claude i Codex tjeraju da "govore kao spiljski ljudi" (caveman plugin – potražite…), režući uljudnu chatbotovu blagoglagoljivost za 65 do 75 posto izlaznih tokena. Koriste ih, prema izvještaju 404 Medije, developeri u OpenAI-ju, Nvidiji i GitHubu. Ljudi koji žive od prodaje tokena interno štede tokene. Više o poslovnom modelu ne treba reći.
Prva faza pitala je može li AI ovo, druga može li ga svatko koristiti, treća napokon pita je li ušteda veća od računa.
AI je prestao biti čudo onog trenutka kad je dobio brojilo. A brojilo, kako vidimo, ima tendenciju da se vrti i kad nitko ne gleda.
Tokenpokalipsa – cmok!