Apple otkrio da stari trik drastično poboljšava AI modele
Nova studija u koautorstvu Appleovih istraživača pokazuje kako metoda temeljena na popisima za provjeru, nazvana RLCF, značajno unapređuje performanse jezičnih modela, čineći ih pouzdanijima u izvršavanju složenih zadataka

U novoj studiji koju su objavili i istraživači iz Applea, veliki jezični model otvorenog koda (LLM) pokazao je značajna poboljšanja performansi nakon što mu je rečeno da provjeri vlastiti rad pomoću jednostavnog, ali moćnog trika za produktivnost. Kako prenosi 9to5Mac, ključ leži u korištenju popisa za provjeru (checklist).
Nakon što se veliki jezični model istrenira, njegova se kvaliteta obično dodatno poboljšava kroz fazu poznatu kao učenje potkrepljivanjem na temelju ljudskih povratnih informacija (RLHF). U tom procesu, ljudski ocjenjivači daju "palac gore" ili "palac dolje" na odgovore modela, čime ga nagrađuju ili kažnjavaju. S vremenom, model uči koji odgovori donose pozitivne reakcije i njegova ukupna korisnost raste. Ovaj proces dio je šireg polja "usklađivanja" (alignment), čiji je cilj osigurati da se AI modeli ponašaju na koristan i siguran način.
Međutim, Appleovi istraživači u studiji naslovljenoj Checklists Are Better Than Reward Models For Aligning Language Models predlažu novu, učinkovitiju metodu: učenje potkrepljivanjem na temelju povratnih informacija s popisa za provjeru (RLCF). Umjesto jednostavnog "sviđa mi se / ne sviđa mi se" signala, RLCF ocjenjuje odgovore modela na ljestvici od 0 do 100 za svaku stavku na unaprijed definiranom popisu.
"Usporedili smo RLCF s drugim metodama usklađivanja primijenjenim na snažan model za praćenje uputa (Qwen2.5-7B-Instruct) na pet široko proučavanih mjerila – RLCF je jedina metoda koja je poboljšala performanse na svakom mjerilu, uključujući povećanje stope zadovoljstva od 4 postotna boda na FollowBench, povećanje od 6 bodova na InFoBench i rast stope pobjeda od 3 postotna boda na Arena-Hard“, objašnjavaju istraživači.
Zanimljiv je i način na koji se ti popisi kreiraju. Istraživači su, koristeći snažniji "učiteljski" AI model (Qwen2.5-72B-Instruct), automatski generirali popise za 130 tisuća različitih uputa, stvarajući tako novi skup podataka nazvan WildChecklists. Za svaku korisničku uputu, sustav generira kratki popis konkretnih da/ne zahtjeva (npr. "Je li odgovor preveden na španjolski?"). Zatim, "učiteljski" model ocjenjuje odgovore "učeničkog" modela prema svakoj stavci na popisu, a te ponderirane ocjene postaju signal za daljnje fino podešavanje.
Istraživači ističu da je njihova metoda usmjerena na "složeno praćenje uputa" i možda nije idealna za sve druge slučajeve upotrebe. Također, naglašavaju da RLCF poboljšava praćenje uputa, ali nije dizajniran za sigurnosno usklađivanje. Jedno od ograničenja je i to što se oslanja na snažniji model koji djeluje kao "sudac" za podešavanje manjeg modela.
Ipak, studija nudi jednostavan i inovativan način za poboljšanje pouzdanosti AI modela, što je ključno za budućnost AI asistenata koji će postati standardno sučelje za interakciju s našim uređajima. To postaje još važnije s obzirom na to da će asistenti sve više dobivati agentske sposobnosti, gdje će precizno praćenje uputa i usklađenost biti od presudne važnosti.