AI je za posao "jedva dovoljan", tvrdi MIT-ova studija
MIT je testirao 41 jezičnih modela na 11.000 radnih zadataka. Zaključak? Umjetna inteligencija radi otprilike kao razočarani pripravnik
MIT je prošlog tjedna objavio preliminarne rezultate studije u kojoj je 41 jezični model – uključujući verzije Claudea, Geminija i ChatGPT-ja – testiran na više od 11.000 pretežno tekstualnih radnih zadataka, raspoređenih po zanimanjima iz američkog registra rada. Rezultate su ocjenjivali ljudi sa stvarnim iskustvom u tim profesijama. Cilj je bio utvrditi koliko često AI može proizvesti rezultat koji bi nadređeni prihvatio bez ikakvih ljudskih intervencija.
Odgovor: u otprilike 65% slučajeva, ako se za prolaz traži "minimalno dovoljno", što bi u hrvatskom školstvu bila nekakva mršava dvojka. Na ljestvici od 1 do 9, ocjena 7 definirana je kao rad koji je upotrebljiv kakav jest, bez potrebe za ispravkama. Dvije trećine vremena, dakle, AI prelazi taj prag, što zvuči solidno, barem dok ne pogledamo što se događa kad se letvica podigne. Kad se od modela traži "superiorna" kvaliteta – ocjena 9 – vjerojatnost uspjeha nikada ne prelazi 50%, neovisno o tome koliko vremena model ima na raspolaganju. Drugim riječima, kad posao zahtijeva više koraka, kreativnost ili preciznost, AI češće ne uspijeva nego što uspijeva.
Istraživači su rezultat opisali formulacijom koja zaslužuje da bude uokvirena i obješena na zid svakog CEO-a koji razmišlja o smanjivanju radne snage: performanse trenutno dostupnih modela usporedive su s onima "razočaranog pripravnika" – ispunjava minimum, ali se muči proizvesti kvalitetan rad, koji bi bio upotrebljiv bez dodatnih intervencija.
Ako vam se čini da to proturječi onome što već godinama slušamo - niste jedini. Priča koju nam prodaju ne samo proizvođači AI modela, nego i konzultantske kuće, poslovni mediji i Silicon Valley u širem smislu, priča je o eksponencijalnom napretku, o modelima koji će "sljedeće godine" biti dovoljno dobri da zamijene čitave odjele. MIT-ovi podaci sugeriraju nešto bitno drukčije: napredak postoji, ali je inkrementalan i, što je ključno, ima plafon, koji još ne znamo probiti.
Uzmimo konkretne primjere iz stvarnog svijeta, jer ih ne nedostaje. Deloitte je prošle godine proizveo dva izvještaja za državne klijente u Australiji i Kanadi koji su bili preplavljeni izmišljotinama. CNET i Sports Illustrated uhvaćeni su kako objavljuju AI-generirane članke pune faktografskih pogrešaka pod izmišljenim imenima autora. Jedan američki odvjetnički ured javno se ispričao nakon što se ustanovilo da su u podnesku za stečajni postupak korištene AI-generirane pravne reference koje ne postoje. U svim tim slučajevima, netko je odlučio da je AI "dovoljno dobar" – i zasrao.
Osobito je zanimljivo proučiti gdje AI modeli prolaze bolje, a gdje lošije. MIT-ovi podaci pokazuju da su prosječne stope uspješnosti niže za kvalificirane uloge u pravnim i IT poslovima, dok se modeli lakše nose s tekstualnim zadacima u građevinarstvu i održavanju. Bez velikih iznenađenja, što je posao složeniji i što su posljedice potencijalne pogreške ozbiljnije, to je AI manje pouzdan. Tvrtke, logično, najprije automatiziraju ono što AI može – jednostavne zadatke i ulazne pozicije – dok složeni poslovi, oni u kojima bi ušteda bila najveća, zasad ostaju izvan dosega. Rezultat je tržište rada u kojemu nestaju dva bitna faktora: prva stepenica karijere i rutina koja je ljude učila zanatu. Istodobno, skupi stručnjaci i dalje nemaju zamjenu. Kad za pet godina uzmanjka novih stručnjaka, jer nitko nije prošao kroz ono što su nekoć bile juniorske pozicije, krug će se zatvoriti na najgori mogući način.
MIT-ovi istraživači procjenjuju da će do 2029. većina modela moći obaviti 80% do 95% tekstualnih zadataka na razini "minimalno dovoljno". Na otprilike dvije sekunde zvuči impresivno, dok se ne zamislimo nad samim pojmom "minimalnog dovoljnog", što je standard kojeg većina nas neće prihvatiti, kad je u pitanju vlastiti posao. Vlastiti, ali i tuđi. Biste li "legli na stol" liječniku koji radi minimalno dovoljno? Dali tako ustrojenom odvjetniku da vam vodi parnicu? "Minimalno dovoljno" jest, po definiciji, najniža prihvatljiva razina; za sve iznad toga, prema MIT-ovim podacima, AI trenutačno nema odgovor.
Najzad, tu je pitanje koje MIT-ovi istraživači postavljaju, ali na njega ne odgovaraju: hoće li AI ikada moći skalirati prema izvrsnom ili savršenom učinku? To je, naime, jedino što u ovoj priči ima značaj. Nitko ne osporava da AI može obaviti gomilu rutinskih zadataka. No, kad nam prodaju narativ o AI-ju koji će preobraziti tržište rada, ne spominju alat koji u dvije trećine slučajeva ispunjava apsolutni prihvatljivi minimum. Prezentiraju nam viziju u kojoj AI obavlja posao bolje od čovjeka.
Ispada da većina nas ima slično radno iskustvo s AI-jem: koristan za prvu verziju, nezamjenjiv za ubrzavanje repetitivnih zadataka, ali nesposoban proizvesti išta što bi se s potpisom poslalo klijentu, bez pažljivog prolaska svega što je umjetna inteligencija nadrobila. Zbilja se u neku ruku radi o razočaranom pripravniku, s tom razlikom da pripravnik s vremenom postane kolega, dok se AI u tom smislu tek treba dokazati.