Novi test za procjenu naprednih AI sustava: "Posljednji ispit čovječanstva"

Centar za sigurnost umjetne inteligencije (CAIS), neprofitna istraživačka organizacija i Scale AI, tehnološka kompanija, predstavili su novo mjerilo za evaluaciju najsuvremenijih AI modela pod nazivom "Posljednji ispit čovječanstva" (Humanity's Last Exam - HLE)...

Ivan Podnar petak, 24. siječnja 2025. u 15:18

Humanity's Last Exam

Današnji testovi za provjeru razine razvijenosti umjetne inteligencije više nisu dovoljno učinkoviti jer vodeći AI sustavi poput onih koje razvijaju OpenAI, Google i Anthropic bez problema rješavaju i najsloženije znanstvene zadatke. Zbog toga je postalo jasno da trebaju preciznije metode kojima bi se mogao pratiti njihov ubrzani razvoj. Kao odgovor pokrenut je projekt pod nazivom "Posljednji ispit čovječanstva" (Humanity's Last Exam - HLE) koji uvodi novi, detaljniji način provjere AI sustava kroz niz različitih znanstvenih područja.

Ispit za AI sadrži oko 3000 pitanja

Sam ispit sadrži oko 3000 pitanja s višestrukim izborom i pitanja koja zahtijevaju kratke odgovore. Područja koja pokriva protežu se od analitičke filozofije do raketnog inženjerstva, a pitanja su pomno odabrana kako bi se ispitale granice AI sustava u znanju i logičkom zaključivanju.

HLE se izdvaja od dosadašnjih mjerila jer kombinira tekstualne i multimodalne zadatke. Potonji uključuju slike i dijagrame kojima se testira sposobnost AI sustava da istovremeno obrađuju i tumače vizualne i tekstualne podatke, što omogućuje sveobuhvatniju procjenu njihovih mogućnosti.

Počelo se sa 70.000 probnih pitanja

Razvoj HLE-a odvijao se kroz nekoliko faza. U početku je prikupljeno više od 70.000 probnih pitanja, koja su zatim svedena na 13.000 za stručnu recenziju. Nakon toga je odabrano 3000 konačnih pitanja koja su dodatno dorađena kako bi zadovoljila stroge kriterije za uključivanje u ispit. Istraživači naglašavaju da je HLE zamišljen kao dinamično mjerilo koje će se razvijati usporedno s napretkom umjetne inteligencije. Tim planira kontinuirano usavršavati ispit i istraživati nove metode evaluacije kako bi držali korak s brzim razvojem AI tehnologije.

Dosad AI sustavi padaju na ispitima

Ispit je već proveden na nekoliko vodećih AI modela, uključujući OpenAI-jev GPT-4o i o1, Anthropicov Claude 3.5 Sonnet te Googleov Gemini 1.5 Pro. Prvi rezultati pokazuju da čak i najnapredniji AI sustavi imaju značajnih poteškoća s ispitom - model s najboljim rezultatom postigao je točnost od samo 9,1%. Ovakav rezultat jasno ukazuje na još uvijek postojeće izazove u razvoju AI sustava koji bi trebali biti sposobni za stručno zaključivanje u različitim područjima znanja.

Vezano

📢 Uštedi

Laptop ASUS VivoBook 15

Sniženo

449,99€ ~~489,99€~~ Kupi

📢 Uštedi

HONOR Magic 7 Lite

Uhvati priliku

349,99€ ~~399,99€~~ Kupi

📢 Uštedi

Monitor 32" SAMSUNG

Provjeri odmah

379,99€ ~~439,99€~~ Kupi

📢 Uštedi

Digitalni fotoaparat NIKON Z30 + 12-28VR

Na popustu

999,99€ ~~1.199,99€~~ Kupi

📢 Otkrij

Ruksak za laptop OCTIO Essentials MultiPack

Provjeri odmah

14,99 € ~~19,99€~~ Kupi

📢 Uštedi

Električni romobil XIAOMI Electric Scooter 4 Lite (2nd Gen)

Uhvati uštedu

299,99€ ~~359,99€~~ Kupi

📢 Otkrij

Računalo LINKS Multimedia

Saznaj više

749,99€ Kupi

📢 Otkrij

Tablet XIAOMI Redmi Pad 2

Iskoristi akciju

199,00€ ~~209,00€~~ Kupi

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

-30% na vrhunski JBL Hi-Fi!

Akcija

JBL Stage Hi-Fi zvučnici i moćni JBL AV receivere

Zapanjujući stereo zvuk, snaga i moderan dizajn – sve što ti treba za pravi audio doživljaj u tvom domu.

Akcija

50th Anniversary Limited Edition.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC monitor s Falcon B110 wooferom i T27 visokotoncem, 70Hz–20kHz, 15Ω, 82.5dB, 50–80W, Golden Madrone furnir, dimenzije 305 x 190 x 165 mm.

3.439,00 € ~~4.299,00 €~~ Akcija

Iznimne performanse i svestranost.

Akcija

PARASOUND JC3+ phono pretpojačalo

Frekvencijski raspon: 20 Hz - 20 kHz, +/- 0.2 dB, THD: < 0.01% at 1 kHz, SNR, MM > 87 dB, input shorted, IHF A-weighted > 78 dB, input shorted, unweighted

3.822,00 € ~~4.778,00 €~~ Akcija

Next Generation HDI™ valovod.

Akcija

JBL Stage 250B

5.25" poliselulozni woofer, 1" anodizirani aluminijski visokotonac s HDI™ horna valovodom, 2-smjerni sustav, skretnica na 1.7kHz, frekvencijski odziv 50Hz–25kHz (±6dB), osjetljivost 86dB, impedancija 6Ω, preporučena snaga pojačala 20–150W, bass-reflex kućište s otvorom straga

349,30 € ~~499,00 €~~ Akcija

Savršen za srednje i velike sobe.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

1.189,00 € ~~1.399,00 €~~ Akcija

Bluetooth slušalice s do 24 sata trajanja baterije.

Akcija

MARLEY Positive Vibration XL

Bluetooth® 5.0 - Battery life: 32 Hours with ANC off / 26 Hours with ANC on - 40mm Hi Definition Drivers - USB-C Quick Charge 15 minute charge = 2 hours of playtime - Ultra Comfort foam ear cushions - Onboard Mic & Remote Functionality

69,98 € ~~99,00 €~~ Akcija

Aktivni zvučnik s Bluetooth aptX i NFC povezivanjem.

Akcija

WHARFEDALE DS1

100 mm bas i 20 mm visokotonac, pojačanje 7W RMS / 14W max, frekvencijski odziv 55Hz–20kHz (±3dB), osjetljivost linijskog ulaza 350mV, kontrole za glasnoću, izvor i uparivanje, 3,5 mm ulaz.

175,00 € ~~232,26 €~~ Akcija

StreamMagic Gen4 modul za steaming.

CAMBRIDGE AUDIO CXN 100

DAC ESS ES9028Q2M, podrška za PCM do 32-bit/768kHz i DSD do x512, Bluetooth 5.1, AirPlay 2, Chromecast, Roon Ready, XLR/RCA izlazi, Wi-Fi/Ethernet, potrošnja 30W, dimenzije 430 x 85 x 305 mm.

1.089,00 € Kupi

DTS Play-Fi® tehnologija.

AUDIOLAB 7000N Play

Bežični streamer s ESS ES9038Q2M DAC-om, 2.8" IPS zaslon, DTS Play-Fi, AirPlay 2, podrška za TIDAL, Qobuz, Spotify, multi-room, koaksijalni i optički izlazi, RCA, 192kHz/24-bit, THD <0.0005%, S/N >115dB, 12V trigger, LAN, dimenzije 444 x 340 x 78 mm, masa 5 kg

689,00 € Kupi

Snažno integrirano pojačalo s DAC-om.

WiiM Vibelink Amp

Klasa-D pojačalo s PFFB tehnologijom, 200W/4Ω, 100W/8Ω, DAC ESS9039Q2M, THD+N ≤0.0005%, SNR ≥120dB, frekvencijski raspon 20Hz–20kHz (±0.5dB), analogni RCA ulaz bez ADC-a, optički i koaksijalni digitalni ulazi (192kHz/24-bit), pozlaćeni zvučnički priključci, 12V trigger, auto-standby

369,00 € Kupi

KEF LSX II