Špijunira vas tehnologija? Neural Voice Camouflage prikriva riječi prilagođenim šumom

Novi sustav koristi strojno učenje kako bi jednu umjetnu inteligenciju iskoristio da prevari drugu

Mladen Smrekar četvrtak, 2. lipnja 2022. u 06:00
Plakat za film
Plakat za film "Prisluškivanje" Francisa Forda Coppole u kojem glumi Gene Hackman

Veliki brat nas sluša. Tvrtke koriste "bossware" da slušaju svoje zaposlenike kada su u blizini svojih računala. Više špijunskih aplikacija može snimati telefonske pozive, a kućni uređaji kao što je Amazonov Echo mogu snimati svakodnevne razgovore.

Nova tehnologija

Zaštitu od prisluškivanja nudi nova tehnologija, nazvana Neural Voice Camouflage. Dok razgovarate, ona u pozadini  generira prilagođeni audio šum, zbunjujući pritom umjetnu inteligenciju koja transkribira snimljene glasove.

Princip djelovanja Neural Voice Camouflagea
Princip djelovanja Neural Voice Camouflagea

Novi sustav koristi adversarial attack. Strategija koristi strojno učenje u kojem algoritmi pronalaze obrasce u podacima kako bi podesili zvukove tako da ih UI, ali ne i ljudi, pomiješa s nečim drugim. U suštini, koristite jednu umjetnu inteligenciju da prevarite drugu. Međutim, proces nije tako jednostavan kao što zvuči. 

Dvije sekunde

Istraživači su podučavali neuronsku mrežu, sustav za strojno učenje inspiriran mozgom, kako bi učinkovito predvidjeli budućnost. Uvježbali su ga na mnogo sati snimljenog govora tako da može stalno obraditi audio isječke u trajanju od dvije sekunde i prikriti ono što će vjerojatno sljedeće biti izgovoreno.

Program u pozadini generira prilagođeni audio šum i zbunjuje umjetnu inteligenciju koja transkribira snimljene glasove
Program u pozadini generira prilagođeni audio šum i zbunjuje umjetnu inteligenciju koja transkribira snimljene glasove

Uzimajući u obzir ono što je upravo rečeno, kao i karakteristike govornikovog glasa, program proizvodi zvukove koji remete niz mogućih fraza koje bi mogle uslijediti. Ljudskim slušateljima audio kamuflaža zvuči poput pozadinske buke i nemaju problema s razumijevanjem izgovorenih riječi. Ali strojevi ostaju zbunjeni.

Prvi korak

Stopa pogreške sustava za automatsko prepoznavanje govora (ASR) povećana je s 11,3% na 80,2%.  Čak i kada je ASR sustav bio osposobljen za transkripciju govora poremećenog neuralnom glasovnom kamuflažom, njegova stopa pogreške ostala je 52,5%. Općenito, najteže je poremetiti kratke riječi, poput "the", ali to su ionako dijelovi razgovora koji najmanje otkrivaju njegov sadržaj.

Razlike u transkripciji razgovora ometanog Neural Voice Camouflageom (gore) i bijelim šumom (dolje)
Razlike u transkripciji razgovora ometanog Neural Voice Camouflageom (gore) i bijelim šumom (dolje)

"Umjetna inteligencija prikuplja podatke o našem glasu, našim licima i našim postupcima. Potrebna nam je nova generacija tehnologije koja poštuje našu privatnost", kažu istraživači. A ovo bi trebao biti tek prvi korak u zaštiti privatnosti od umjetne inteligencije. Štoviše, prediktivni dio sustava mogao bi primjenu naći i u drugim programima koji trebaju obradu u stvarnom vremenu, poput onih u autonomnim vozilima.