AI uspješan s kratkim zadacima, ljudi uspješniji s dugotrajnijim. Za sada
Znanstvenici su predložili novi način mjerenja sposobnosti sustava umjetne inteligencije (AI), uspoređujući brzinu kojom mogu izvršiti složene zadatke u odnosu na ljude.

Iako AI sustavi generalno nadmašuju ljude u zadacima poput predviđanja teksta i znanja, manje su učinkoviti u složenijim projektima, kao što je daljinska izvršna asistencija. Nova studija, objavljena na arXivu, a koju prenosi LiveScience, kvantificira napredak AI modela mjerenjem trajanja zadataka koje mogu uspješno završiti u usporedbi s ljudskim vremenom
Studija je pokazala da AI modeli zadatke koji ljudima oduzimaju manje od četiri minute rješavaju s gotovo 100% uspješnosti. Međutim, uspješnost pada na 10% za zadatke koji traju više od četiri sata, s tim da su noviji AI modeli bolji na dužim zadacima od starijih. Značajno je da se duljina zadataka koje AI sustavi općeg znanja mogu obaviti s 50% pouzdanosti udvostručuje otprilike svakih sedam mjeseci tijekom posljednjih šest godina.
Za provođenje studije korišteni su različiti AI modeli (uključujući Sonnet 3.7, GPT-4, Claude 3 Opus) i niz zadataka, od jednostavnih (pretraživanje Wikipedije) do složenih programerskih zadataka koji ljudskim stručnjacima oduzimaju sate. Korišteni su alati za testiranje poput HCAST i RE-Bench. Također je uvedena metrika "neurednosti" (messiness) zadataka kako bi se procijenila sposobnost AI-ja za rješavanje realističnih problema koji zahtijevaju koordinaciju.
Studija sugerira da se "raspon pažnje" AI-ja brzo povećava. Ekstrapolacijom ovog trenda, istraživači predviđaju da bi AI do 2032. godine mogao automatizirati posao razvoja softvera koji čovjeku inače oduzima mjesec dana. Ovaj novi pristup mjerenju mogao bi postati mjerilo za bolje razumijevanje stvarnih sposobnosti AI-ja, njegovog potencijalnog utjecaja i rizika.
Osim nove metrike, studija naglašava brz napredak AI sustava i njihovu rastuću sposobnost rješavanja dugotrajnih zadataka. Predviđa pojavu AI agenata do 2026. koji će moći obavljati raznolike zadatke tijekom cijelog dana ili tjedna.
Zaključak je da će moćni AI agenti, sposobni fleksibilno prelaziti između različitih zadataka i integrirati specijalizirane vještine, temeljito preoblikovati svakodnevni život i profesionalne prakse.