Benchmarci - Mjerenje sposobnosti i performansi
Benchmarci su sasvim uobičajen i vrlo standardiziran način da se evaluiraju i provjere sposobnosti velikih jezičnih modela definiranim mjerilima, a tijekom vremena nastao je zavidan broj testova koji provjeravaju različite aspekte modela, dok svaki ima jedinstvenu svrhu i metodu procjene. Tako su tu oni koji provjeravaju opća znanja, zatim oni koji evaluiraju dijalog i sposobnost interakcije, programerski benchmarci, matematički i jezični benchmarci, oni koji provjeravaju razumijevanje uputa i slično.

Među najznačajnijim benchmarcima valja istaknuti MMLU (Massive Multitask Language Understanding), koji se smatra jednim od najboljih indikatora opće inteligencije modela kroz 57 različitih područja, od osnovnoškolske matematike preko prava pa sve do medicine. Za evaluaciju matematičkih sposobnosti najčešće se koristi MATH koji sadrži probleme s matematičkih natjecanja različitih razina složenosti, dok se za provjeru sposobnosti programiranja nerijetko koriste LiveCodeBench i Codeforces. Doduše, na umu valja imati da, premda su benchmarci korisni za standardizirano mjerenje i usporedbu jezičnih modela, rezultati ne moraju nužno pokazivati koliko će neki model doista biti upotrebljiv u stvarnosti. Osim toga, neke važne aspekte modela poput sigurnosti, pristranosti ili kontekstualnog razumijevanja, teško je provjeriti i evaluirati kroz standardizirane benchmarke. Evo i koji su trenutačno aktualni benchmarci koji su korišteni i prilikom evaluacije modela DeepSeek-R1, kako bi se mogle bolje razumjeti sposobnosti tog, kao i drugih velikih jezičnih modela…