500 milijuna dolara mjesečno na AI – zabunom
Kako jedna tvrtka slučajno potroši pola milijarde dolara na AI? Token po token...
Nedavno smo prijatelj i ja filozofirali o svjetskim financijama i koliko je koja država dužna, koliki je kome deficit i slične stvari. Složili smo se da su puste milijarde i bilijuni tako veliki brojevi da ljudi to jednostavno ne mogu intuitivno pojmiti. Kad kupuješ auto intuitivno znaš relaciju između 20.000 i 40.000 eura i koliko je to u mjesečnim plaćama. Kada je nešto u milijunima i milijardama te relacije jednostavno nestaju iz računice. Prijatelj je u zajebanciji kao rješenje predložio da se u financije stoga uvede pojam "internacionalnih jedinica janjetine" - koliko se pečene janjetine može kupiti za neku svotu.
Te "internacionalne jedinice janjetine" (IJJ) su mi prve pale na pamet kad sam pročitao vijest da je neka neimenovana tvrtka nehotice potrošila pola milijarde dolara samo u jednom mjesecu za korištenje AI-ja.
Treba zamisliti izraz lica direktora tvrtke kad mu je došla faktura za potrošene tokene. U omotnici koja izgleda kao svaka druga, ali zbog koje mu se objesi jedna strana lica, a tajnica zove hitnu pomoć.
Tako "vrti brojčanik" AI koji cijeli mjesec radi u slobodnom naletu, bez postavljenog limita potrošnje.
Prema vijestima, neimenovana kompanija koja je u jednom mjesecu potrošila 500 milijuna dolara na Claude AI došla je u novine ne planski, nego zato što nitko nije postavio limit potrošnje na licencama zaposlenika. Komentari na Internetu su kao i obično genijalni – „extinction level tokenmaxxing“, kaže jedan.
Kako je to uopće tehnički moguće? Odgovor leži u jednoj naizgled bezazlenoj jedinici mjere: tokenu, kojeg već zovu „najmanji mogući novac s najvećim mogućim računom“ i praksi tokenmaxxinga kojoj pribjegavaju zaposlenici.
Svaki put kada koristite AI asistent - Claude, ChatGPT, Gemini ili bilo koji drugi - vaš tekst se ne obrađuje slovo po slovo niti riječ po riječ. Modeli rade s tokenima: malim komadićima teksta koji mogu biti cijela kratka riječ, slog dulje riječi ili samo interpunkcijski znak. U engleskom jeziku, 1.000 tokena otprilike odgovara 750 riječi. U hrvatskom, zbog nastavaka i dugačkih oblika, omjer je malo nepovoljniji gledajući odnose riječ po riječ. Međutim, zbog drukčije morfologije jezika zapravo za reći više možemo potrošiti manje „tokena“, odnosno riječi. (Koga zanima, hrvatski je „sintetički, flektivni“, a engleski „analitički“ - što znači da zapravo mi s manje riječi možemo reći više – „djedov sat“ naprama „the wristwatch of the grandpa“, odnosno, eat that, you English-speaking suckers!).
Za krajnjeg korisnika koji se igra s besplatnom verzijom ChatGPT-a, tokeni su apstrakcija (za razliku od internacionalnih jedinica janjetine…) - nešto što se dogodi negdje u oblaku i za što ne plaćate izravno. Ali za tvrtke koje koriste AI kroz API - programsko sučelje koje programerima omogućuje integraciju AI-a u vlastite aplikacije - svaki token ima svoju cijenu.
I ta cijena nije trivijalna. Anthropicov Claude Sonnet 4.6, jedan od najpopularnijih modela za poslovnu upotrebu, naplaćuje tri dolara za milijun ulaznih tokena i 15 dolara za milijun izlaznih. Opus 4.8 ide na pet dolara za input i 25 dolara za output po milijunu tokena, odnosno 10 i 50 dolara za tzv. „fast“ verziju modela.
Za usporedbu: ovaj tekst koji upravo čitate dugačak je oko 8.000 znakova. Obrada teksta te veličine košta djelić centa. Bezopasno - osim ako ga istovremeno obrađuje tisuće zaposlenika, svaki po deset puta dnevno, a nitko nije postavio limit. Tada "djelić centa" postaje financijski incident koji završi u novinama.
No što ako AI ne piše jedan tekst, nego autonomno izvršava stotine zadataka odjednom, za tisuće zaposlenika, 24 sata na dan? Korporacijski AI agent obično izvršava nešto u stilu: "Analiziraj ovu bazu podataka od 10.000 redova, napiši sažetak, provjeri konzistentnost podataka, usporedi s rezultatima od prošlog kvartala i predloži akcije."
Svaki put kad agent dobije ovakav zadatak on pokrene sve druge agente, traži kopiju cijelog prethodnog razgovora, ispisuje te materijale, čita ih od početka - i onda tek počinje raditi, jer modeli ne pamte prethodne razgovore, pa ih moraju stalno "hraniti" prethodnim kontekstom. Svaki korak dodaje tokene. Dugi konteksti - dokumenti, baze koda, „korporativne smjernice“ - znače da samo postavljanje scene za jednog agenta može koštati tisuće tokena, još prije nego je ovaj napravio išta korisnog.
Jedan programer koji prati svoju potrošnju objavio je da je kroz osam mjeseci korištenja Claude Code alata akumulirao 10 milijardi tokena - ekvivalent čitanja cijele Wikipedije nekih 600 puta. Po API cijenama, to bi iznosilo više od 15.000 dolara. Na pretplatnom planu koji je stvarno koristio, platio je oko 800 dolara. Ta razlika objašnjava zašto korporacije koje koriste API pristup i plaćaju po tokenu, bez gornje granice, mogu brzo upasti u nevolju.
Tu dolazimo do pojma koji je popularizirao kolumnist New York Timesa Kevin Roose: „tokenmaxxing“. Nastao po uzoru na internetsku kulturu "maxxanja" - looksmaxxing, gymmaxxing, sleepmaxxing…
Tokenmaxxing označava strategiju maksimiziranja iskoristivosti AI tokena. U pozitivnom smislu, to je vještina pisanja upita i dizajniranja radnih tokova koji izvuku maksimum vrijednosti iz svakog potrošenog tokena, ali pojam je brzo dobio suprotno značenje.
Amazon je uveo internu ljestvicu na kojoj je rangirao zaposlenike prema tome koliko AI tokena troše - s naputkom da „80% developera mora tjedno koristiti AI alate“. Zaposlenici su odgovorili postavljajući AI modelu besmislena pitanja, uključujući provjere vremenske prognoze, samo da bi napumpali svoju poziciju na ljestvici.
Play stupid games, win stupid prizes, kako se to lijepo kaže, ili prema Goodhartovom zakonu: kad mjera postane cilj, prestaje biti dobra mjera. Amazon je na kraju morao ukinuti cijeli sustav praćenja.
Meta je krenula istim putem, ali na mnogo većoj skali. Internu ljestvicu nazvali su "Claudeonomics" (samo zbog smišljanja ovakvih termina bacao bih ljude u woodchipper kao Steve Buscemi u Fargu…) i rangirali svih 85.000 zaposlenika po tokenima. Rezultat: u jednom jedinom mjesecu Meta zaposlenici potrošili su 60 bilijuna tokena. Meta je naposljetku ukinula ljestvicu. Uber je pak do travnja iscrpio cijeli godišnji AI budžet - za tvrtku koja je planirala trošiti ga ravnomjerno 12 mjeseci, ostalo je još osam.
Tokenmaxxing kao korporativni performans: trošiti tokene ne da budeš produktivniji, nego da izgledaš produktivno. U najgorem slučaju, tokenmaxxing postaje ono što se dogodilo onoj anonimnoj tvrtki: nekontrolirana lavina upita koji se repliciraju, šire, ulančavaju jedan za drugim kroz autonomne agente - i nitko to ne prati dok ne stigne faktura koja izgleda kao telefonski broj. U drugom gradu. Na Marsu. (Imam telefon da zovem te, a kada zovem nema te. Hej, hej, hajde barem javi se…)
Tvrtka iz novinskog izvješća ostaje neidentificirana - što i nije čudno, jer bi javno priznanje takve greške bilo katastrofa prvog reda. Slučajno ili ne, Microsoft je nedavno otkazao većinu internih licenci za Claude Code, u onome što analitičari opisuju kao „prvo ozbiljno korporativno povlačenje od korporacijskih AI troškova u 2026. godini“.
Ono što je ova priča zapravo razotkrila nije toliko nepažnja jednog nabavnog odjela. Razotkrila je problem u ne načinu na koji tvrtke kupuju AI usluge, već u tome koliko upravljački kadar nema pojma što radi.
Tradicionalni softver naplaćuje se po sjedalu – plaća se po zaposleniku, svejedno koristio on taj softver jedan sat ili tisuće sati. AI je nalik potrošnji struje - svaki upit ima svoju cijenu.
I tu je šansa da zaposlenici „obrazuju“ svoju menadžersku kastu i resetiraju „na tvorničke postavke“ njihove idiotske ideje o tome što AI jest i nije, i koliko je koristan, i koliko nije koristan niti ne može biti u stvarnom radnom procesu.