AGI benchmark
'MLE-bench': supertest za evaluaciju opće umjetne inteligencije
OpenAI je kompilirao 75 iznimno teških testova koji mogu procijeniti je li budući napredni AI agent sposoban modificirati vlastiti kod i poboljšati se ili pak prouzročiti katastrofalnu štetu