AI pobjeđuje ljude u osnovnim zadacima i zato nam trebaju nova mjerila
Indeks umjetne inteligencije Sveučilišta Stanford za 2024. prikazuje meteorski uspon alata za umjetnu inteligenciju
Sustavi umjetne inteligencije kao što je chatbot ChatGPT postali su toliko napredni da sada gotovo odgovaraju ili premašuju ljudske performanse u zadacima uključujući razumijevanje pročitanog teksta, klasifikaciju slika i matematiku na razini natjecanja. Brz napredak u razvoju ovih sustava također znači da mnoga uobičajena mjerila i testovi za njihovu procjenu brzo zastarijevaju.
Sedmi godišnji izvještaj
Ovo su samo neki od glavnih nalaza iz Izvještaja o indeksu umjetne inteligencije za 2024. Instituta za umjetnu inteligenciju usmjerenu na čovjeka (HAI) na Sveučilištu Stanford. Izvještaj prikazuje meteorski napredak u sustavima strojnog učenja u proteklom desetljeću i ukazuje na to da nam trebaju novi načini procjene izvedbe AI na složenim zadacima kao što su apstrakcija i rasuđivanje.
"Još prije deset godina mjerila su služila pet do 10 godina, a sad često postaju irelevantna za godinu-dvije", upozoravaju istraživači koji su Stanfordov godišnji Indeks umjetne inteligencije prvi put objavili 2017. Ovogodišnji izvještaj na više od 400 stranica prvi put cijelo poglavlje posvećuje znanstvenim primjenama i ističe projekte kao što su Graph Networks for Materials Exploration (GNoME) i GraphCast.
Ubrzani razvoj
Umjetna inteligencija razvija se velikom brzinom. Broj projekata na GitHubu, zajedničkoj platformi za dijeljenje koda, porastao je s oko 800 u 2011. na 1,8 milijuna prošle godine. Istovremeno se utrostručio i broj stručnih časopisa o umjetnoj inteligenciji.
Velik dio rasta otpada na industrijski sektor koji je lani proizveo 51 važan sustav strojnog učenja; akademski istraživači istodobno su izradili 15 takvih sustava. To znači, komentiraju istraživači, da se akademski rad prebacuje na analizu modela koji dolaze iz tvrtki. To uključuje i razvoj strožih testova za procjenu vizualnih, matematičkih pa čak i moralnih sposobnosti rasuđivanja velikih jezičnih modela (LLM) koji pokreću chatbotove.
AI jači od doktorata
Jedan od najnovijih testova je Graduate-Level Google-Proof Q&A Benchmark (GPQA), razvijen lani na Sveučilištu New York. GPQA se sastoji od više od 400 pitanja s višestrukim izborom i prilično je težak: znanstvenici s doktoratima uspjeli su točno odgovoriti na 65% pitanja iz svog područja i samo 34% na pitanja izvan uske struke, unatoč tome što su imali pristup internetu tijekom testa, s time da bi i nasumični odabir odgovora dao rezultat od 25%).
Prošle godine AI sustavi postizali su rezultate oko 30-40%, da bi ove godine Anthropicov Claude 3 postigao oko 60%.
"Stopa napretka prilično je šokantna za mnoge ljude i prilično je teško napraviti mjerilo koje će opstati dulje od nekoliko godina", kažu istraživači.
Troškovi poslovanja
S performansama vrtoglavo rastu i troškovi. Trening GPT-4 navodno košta 78 milijuna dolara, Googleov chatbot Gemini Ultra koštao je još više - 191 milijun dolara. Mnoge brine i potrošnja energije ovih sustava te količine vode potrebna za hlađenje servera koji pomažu u njihovom radu.
Neki istraživači brinu da će im ponestati podataka o obuci. Neprofitni istraživački institut Epoch predvidio je da bismo zalihe visokokvalitetnih jezičnih podataka mogli iscrpiti već ove godine, mada najnovija analiza instituta sugerira da će se to dogoditi 2028.
10 ključnih točaka izvještaja
1. AI pobjeđuje ljude u nekim zadacima, ali ne u svim.
2. Industrija dominira u istraživanju umjetne inteligencije.
3. Frontier modeli kao što su GPT-4 i Gemini Ultra postaju sve skuplji.
4. SAD su vodeći izvor vrhunskih AI modela, a slijede ih Kina, EU i Velika Britanija.
5. Ozbiljno nedostaju robusne i standardizirane evaluacije odgovornosti LLM-a.
6. Vrtoglavo rastu ulaganja u generativnu umjetnu inteligenciju.
7. AI čini radnike produktivnijima i dovodi do bolje kvalitete rada, dokazuju studije.
8. Znanstveni napredak još se više ubrzava zahvaljujući umjetnoj inteligenciji.
9. Naglo raste broj propisa o AI, naročito u SAD-u.
10. Ljudi diljem svijeta sve su svjesniji potencijalnog utjecaja AI-a i postaju sve nervozniji.
Regulacija AI
Razvoj umjetna inteligencija pokušava se regulirati u sve više zemalja i sve se češće predlažu i donose zakoni i mjere usmjerene na promicanje odgovorne upotrebe umjetne inteligencije. Spominju se mjerila koja mogu ocjenjivati metrike kao što su istinitost, pristranost pa čak i dopadljivost alata umjetne inteligencije.