'Provjera usklađenosti': koliko umjetna inteligencija poštuje zakone
Predstavljen skup mjerila kojima se procjenjuje koliko su različiti AI modeli u skladu s EU Zakonom o umjetnoj inteligenciji
Istraživači ETH Zurich, Istraživačkog instituta za umjetnu inteligenciju INSAIT i ETH-ov spin-off LatticeFlow AI osmislili su COML-AI prvo sveobuhvatno tumačenje europskog Zakona o AI koje se odnosi na sustave umjetne inteligencije opće namjene (GPAI). To je prvi pokušaj da se zakonski zahtjevi koje EU postavlja pred buduće AI modele prevedu u konkretne, mjerljive i provjerljive tehničke zahtjeve.
Skup mjerila
Istraživači su svoj pristup testirali na dvanaest popularnih generativnih modela umjetne inteligencije kao što su ChatGPT, Llama, Claude ili Mistral. Svoje nalaze objavili su u studiji koja se može pronaći na arXivu, a rezultate su stavili na raspolaganje i Uredu EU za AI. Istraživači su razvili i prvu "provjeru usklađenosti", skup mjerila koja se mogu koristiti za procjenu koliko su modeli umjetne inteligencije u skladu sa zahtjevima europskog zakona.
Polazeći od šest središnjih etičkih načela navedenih u zakonu - ljudska djelatnost, zaštita podataka, transparentnost, raznolikost, nediskriminacija i pravednost - istraživači su izveli 12 povezanih, tehnički jasnih zahtjeva i povezali ih s 27 suvremenih mjerila evaluacije. Rezultati jasno pokazuju da niti jedan od 12 analiziranih jezičnih modela u potpunosti ne ispunjava zahtjeve EU AI Acta.
Niz nedostataka
Uočen je niz nedostataka, posebno u pogledu robusnosti, raznolikosti i pravednosti modela, otkrivaju istraživači koji razlog za to vide u činjenici da su se posljednjih godina razvojni inženjeri primarno usredotočili na opće mogućnosti i izvedbu modela umjesto na više etičke ili društvene prohtjeve.
Nejasni su, primjećuju istraživači, čak i ključni koncepti umjetne inteligencije poput objašnjivosti. U praksi, kažu, nedostaju prikladni alati za naknadno objašnjenje kako su nastali rezultati složenog AI modela: ono što konceptualno nije posve jasno, tehnički je gotovo nemoguće evaluirati. Studija jasno pokazuje da se različiti tehnički zahtjevi, uključujući one koji se odnose na kršenje autorskih prava, trenutno ne mogu pouzdano izmjeriti.
Ipak, krajnji cilj istraživača ide dalje od puke procjene postojećih modela. Oni, kažu, žele omogućiti provedbu Zakona o AI i ponuditi praktične preporuke tvorcima modela. Stoga su omogućili pristup svom alatu COMPL-AI na GitHubu, gdje svi koji žele mogu analizirati i vizualizirati rezultati i metode benchmarkinga.