Istraživanja

AI pobjeđuje ljude u osnovnim zadacima i zato nam trebaju nova mjerila

Stopa napretka prilično je šokantna za mnoge ljude i prilično je teško napraviti mjerilo koje će opstati dulje od nekoliko godina 📷 chandlervid85/Freepik
Mladen Smrekar četvrtak, 18. travnja 2024. u 06:00

Indeks umjetne inteligencije Sveučilišta Stanford za 2024. prikazuje meteorski uspon alata za umjetnu inteligenciju

Sustavi umjetne inteligencije kao što je chatbot ChatGPT postali su toliko napredni da sada gotovo odgovaraju ili premašuju ljudske performanse u zadacima uključujući razumijevanje pročitanog teksta, klasifikaciju slika i matematiku na razini natjecanja. Brz napredak u razvoju ovih sustava također znači da mnoga uobičajena mjerila i testovi za njihovu procjenu brzo zastarijevaju.

Sedmi godišnji izvještaj

Ovo su samo neki od glavnih nalaza iz Izvještaja o indeksu umjetne inteligencije za 2024. Instituta za umjetnu inteligenciju usmjerenu na čovjeka (HAI) na Sveučilištu Stanford. Izvještaj prikazuje meteorski napredak u sustavima strojnog učenja u proteklom desetljeću i ukazuje na to da nam trebaju novi načini procjene izvedbe AI na složenim zadacima kao što su apstrakcija i rasuđivanje. 

U posljednjih nekoliko godina AI sustavi toliko su napredovali da su dostigli ili nadmašili ljudske preformanse 📷 Artificial Intelligence Index Report 2024.
U posljednjih nekoliko godina AI sustavi toliko su napredovali da su dostigli ili nadmašili ljudske preformanse Artificial Intelligence Index Report 2024.

"Još prije deset godina mjerila su služila pet do 10 godina, a sad često postaju irelevantna za godinu-dvije", upozoravaju istraživači koji su Stanfordov godišnji Indeks umjetne inteligencije prvi put objavili 2017. Ovogodišnji izvještaj na više od 400 stranica prvi put cijelo poglavlje posvećuje znanstvenim primjenama i ističe projekte kao što su Graph Networks for Materials Exploration (GNoME) i GraphCast.

Ubrzani razvoj 

Umjetna inteligencija razvija se velikom brzinom. Broj projekata na GitHubu, zajedničkoj platformi za dijeljenje koda, porastao je s oko 800 u 2011. na 1,8 milijuna prošle godine. Istovremeno se utrostručio i broj stručnih časopisa o umjetnoj inteligenciji.

Godine 2022. AI je počeo unapređivati ​​znanstvena otkrića, no 2023. svjedočili smo pokretanju još značajnijih AI aplikacija, od AlphaDeva koji čini algoritamsko sortiranje učinkovitijim, do GNoME-a koji olakšava proces otkrivanja materijala
Godine 2022. AI je počeo unapređivati ​​znanstvena otkrića, no 2023. svjedočili smo pokretanju još značajnijih AI aplikacija, od AlphaDeva koji čini algoritamsko sortiranje učinkovitijim, do GNoME-a koji olakšava proces otkrivanja materijala

Velik dio rasta otpada na industrijski sektor koji je lani proizveo 51 važan sustav strojnog učenja; akademski istraživači istodobno su izradili 15 takvih sustava. To znači, komentiraju istraživači, da se akademski rad prebacuje na analizu modela koji dolaze iz tvrtki. To uključuje i razvoj strožih testova za procjenu vizualnih, matematičkih pa čak i moralnih sposobnosti rasuđivanja velikih jezičnih modela (LLM) koji pokreću chatbotove.

AI jači od doktorata

Jedan od najnovijih testova je Graduate-Level Google-Proof Q&A Benchmark (GPQA), razvijen lani na Sveučilištu New York. GPQA se sastoji od više od 400 pitanja s višestrukim izborom i prilično je težak: znanstvenici s doktoratima uspjeli su točno odgovoriti na 65% pitanja iz svog područja i samo 34% na pitanja izvan uske struke, unatoč tome što su imali pristup internetu tijekom testa, s time da bi i nasumični odabir odgovora dao rezultat od 25%).

GPQA test 📷 New York University, Cohere, Anthropic, PBC
GPQA test New York University, Cohere, Anthropic, PBC

Prošle godine AI sustavi postizali su rezultate oko 30-40%, da bi ove godine Anthropicov Claude 3 postigao oko 60%. 

"Stopa napretka prilično je šokantna za mnoge ljude i prilično je teško napraviti mjerilo koje će opstati dulje od nekoliko godina", kažu istraživači.

Troškovi poslovanja

S performansama vrtoglavo rastu  i troškovi. Trening GPT-4 navodno košta 78 milijuna dolara, Googleov chatbot Gemini Ultra koštao je još više - 191 milijun dolara. Mnoge brine i potrošnja energije ovih sustava te količine vode potrebna za hlađenje servera koji pomažu u njihovom radu.  

Jedan od razloga zašto su akademska zajednica i vlade izbačeni iz utrke za AI: eksponencijalni porast troškova obuke divovskih modela. Trening Googleovog Gemini Ultra koštao je 191 milijun dolara, OpenAI-jev GPT-4 oko 78 milijuna dolara. Za usporedbu, 2017. originalni model Transformer, koji je uveo arhitekturu koja podupire gotovo svaki moderni LLM, koštao je oko 900 dolara
Jedan od razloga zašto su akademska zajednica i vlade izbačeni iz utrke za AI: eksponencijalni porast troškova obuke divovskih modela. Trening Googleovog Gemini Ultra koštao je 191 milijun dolara, OpenAI-jev GPT-4 oko 78 milijuna dolara. Za usporedbu, 2017. originalni model Transformer, koji je uveo arhitekturu koja podupire gotovo svaki moderni LLM, koštao je oko 900 dolara

Neki istraživači brinu da će im ponestati podataka o obuci. Neprofitni istraživački institut Epoch predvidio je da bismo zalihe visokokvalitetnih jezičnih podataka mogli iscrpiti već ove godine, mada najnovija analiza instituta sugerira da će se to dogoditi 2028. 


10 ključnih točaka izvještaja

1. AI pobjeđuje ljude u nekim zadacima, ali ne u svim.
2. Industrija dominira u istraživanju umjetne inteligencije.
3. Frontier modeli kao što su GPT-4 i Gemini Ultra postaju sve skuplji.
4. SAD su vodeći izvor vrhunskih AI modela, a slijede ih Kina, EU i Velika Britanija. 
5. Ozbiljno nedostaju robusne i standardizirane evaluacije odgovornosti LLM-a.
6. Vrtoglavo rastu ulaganja u generativnu umjetnu inteligenciju.
7. AI čini radnike produktivnijima i dovodi do bolje kvalitete rada, dokazuju studije.
8. Znanstveni napredak još se više ubrzava zahvaljujući umjetnoj inteligenciji.
9. Naglo raste broj propisa o AI, naročito u SAD-u.
10. Ljudi diljem svijeta sve su svjesniji potencijalnog utjecaja AI-a i postaju sve nervozniji.


Regulacija AI

Međunarodno istraživanje Sveučilišta u Torontu pokazuje da je 63% ispitanika svjesno sveprisutnosti ChatGPT-a
Međunarodno istraživanje Sveučilišta u Torontu pokazuje da je 63% ispitanika svjesno sveprisutnosti ChatGPT-a

Razvoj umjetna inteligencija pokušava se regulirati u sve više zemalja i sve se češće predlažu i donose zakoni i mjere usmjerene na promicanje odgovorne upotrebe umjetne inteligencije. Spominju se mjerila koja mogu ocjenjivati ​​metrike kao što su istinitost, pristranost pa čak i dopadljivost alata umjetne inteligencije.