Algoritam pomaže sustavima umjetne inteligencije da izbjegavaju "kontradiktorne" podatke

Metoda istraživača s MIT-a temelji se na tehnikama igara koje pomažu autonomnim vozilima da se kreću u stvarnom svijetu, gdje signali mogu biti nesavršeni

Mladen Smrekar srijeda, 10. ožujka 2021. u 21:14

U savršenom svijetu stvari su onakve kakvima ih vidite i u njemu bi posao umjetne inteligencije bio veoma jednostavan. Uzmimo za primjer sustave za izbjegavanje sudara u samovozećim automobilima. Kad bi se moglo vjerovati onome što prikazuju kamere, AI sustav AI mogao bi temeljem onoga što se vidi vozilo usmjeravati desno, lijevo ili nastaviti ravno kako bi izbjegao nalet na pješaka.

Duboke neuronske mreže

No što ako se slika pomakne za nekoliko piksela? Automobil koji slijepo vjeruje kontradiktornim podacima mogao bi poduzeti nepotrebne i potencijalno opasne poteze. Novi algoritam dubokog učenja koji su razvili istraživači s MIT-a osmišljen je kako bi pomogao strojevima da se kreću u stvarnom, nesavršenom svijetu.

Tim je kombinirao algoritme učenja s dubokim neuronskim mrežama kako bi računala naučio igranju video igara poput Go ili šaha i osmislio nešto što se naziva Certified Adversarial Robustness for Deep Reinforcement Learning, ili jednostavnije CARRL.

Donošenje sigurnih odluka

Istraživači su testirali pristup u nekoliko scenarija, uključujući simulirani test za izbjegavanje sudara i video igru ​​Pong. Pokazalo se kako CARRL bolje izbjegava sudare i pobjeđuje u više igara nego sustavi koji počivaju na standardnim tehnikama strojnog učenja.  

"Vaš neprijatelj ne mora uvijek biti neki haker. Nevolje mogu izazvati i loši senzori ili nesavršena mjerenja. Naš pristup objašnjava tu nesavršenost i pomaže donijeti sigurnu odluku", kaže Michael Everett s MIT-ovog Odjela za aeronautiku i astronautiku AeroAstro, vodeći autor studije potekle iz magistarskog rada doktoranda Björna Lütjensa i mentora Jonathana Howa.

Moguće stvarnosti

Tradicionalno, neuronske mreže mogu povezivati nove informacije s već prikupljenim podacima. Na primjer, neuronska mreža koja sadrži tisuće slika mačaka, zajedno sa slikama kuća i hrenovki, trebala bi ispravno označiti novu sliku mačke.

Robusni AI sustavi prepoznat će i malo izmijenjene slike mačaka no taj je proces zahtjevan i spor pa ga je teško primijeniti na vremenski osjetljive zadatke poput izbjegavanja sudara u prometu.  

"Da bismo koristili neuronske mreže u sigurnosno kritičnim scenarijima, morao znati kako donositi odluke u stvarnom vremenu na temelju najgorih pretpostavki o tim mogućim stvarnostima", kaže Lütjens.

Najbolja nagrada

Istraživači su se okrenuli pojačanom učenju koje se obično koristi za osposobljavanje računala za svladavanje igara kao što su šah ili Go. Njihov CARRL koristio je algoritme pojačanog učenja za trening duboke višeslojne neuronske mreže, DQN. Svi ulazni podaci i svi kontradiktorni utjecaji obrađeni su kako bi se izračunala optimalna nagrada u najgorem slučaju.

U igri Pong, istraživači s MIT-a pokazali su da je, uz savršena mjerenja, standardni algoritam dubokog učenja sposoban pobijediti u većini igara. Ali u scenariju u kojem na mjerenja utječe "protivnik" koji položaj lopte pomiče za nekoliko piksela, računalo lako pobjeđuje standardni algoritam. CARRL pak obrađuje takve manipulacije i pobjeđuje računalo, iako ne zna gdje se lopta točno nalazi. 

Testovi izbjegavanja sudara

Metoda je iskušana i u testovima za izbjegavanje sudara. Pokazalo se da bi CARRL mogao pomagati robotima da se nose s nepredvidivim interakcijama u stvarnom svijetu i na vrijeme donose ispravne odluke. No put do sustava koji će moći izbjeći sve zamke koje pred njega postavi nepredvidivi čovjek još je prilično dug i neizvjestan.