AI-generirani glasovi: Utrka stvaranja i otkrivanja

Dok industrija AI-generiranih glasova donosi revolucionarne mogućnosti u komunikaciji i zabavi, istovremeno stvara potrebu za razvojem sofisticiranih tehnologija za otkrivanje sintetičkih glasova, zbog zaštite od potencijalnih zlouporaba u svijetu sve teže razlučive digitalne stvarnosti.

Ivan Podnar utorak, 27. kolovoza 2024. u 12:45

Napredak u neuralnom pretvaranju teksta u govor stvara sve realističnije AI glasove. Modeli dubokog učenja sposobni su uhvatiti minuciozne nijanse ljudskog govora i prirodnost izričaja, pa se sintetički glasovi mogu koristiti u brojnim slučajevima, od korisničke službe i marketinga do zabave i obrazovanja.

Etička i pravna pitanja

Međutim, neovlašteno korištenje nečijeg glasa može dovesti ne samo do povreda privatnosti i identiteta već i do stvaranja uvjerljivih lažnih audio zapisa. Time nastaje mogućnost narušavanja ugleda pojedinaca ili širenja dezinformacija s teškim posljedicama.

Kao u nekom bumerang scenariju, stvaranje sintetičkih glasova stvara i kontra-industriju koja pokušava naći rješenja za prepoznavanje sintetičkih glasova i obranu od posljedica. Ovo je posebno zabrinjavajuće u kontekstu javnih osoba i političara.

Tehnologije za otkrivanje AI-generiranih glasova

Pindrop Security ima alat nazvan Pindrop Pulse koji razlikuje stvarne od umjetno generiranih glasova s točnošću prepoznavanja od 96,4%. Pindrop je dospio u naslovnice u siječnju kada je otkrio izvor deepfakea predsjednika Joea Bidena koji je putem robotskog poziva poticao ljude da ne glasaju na primarnim izborima u New Hampshireu. Razmjer napada raste: tvrtka je izvijestila da je od prošle godine zabilježila više od peterostrukog povećanja broja pokušaja napada usmjerenih na njihove klijente.

AI or Not nudi uslugu otkrivanja deepfake zvuka, trenirajući modele strojnog učenja na temelju specifičnih slučajeva upotrebe klijenata.

Istraživači sa Sveučilišta Drexel razvili su sustav i algoritam MISLnet koji koristi konvolucijske neuronske mreže za otkrivanje audio i videozapisa generiranih umjetnom inteligencijom.

Startup Deep Media fokusira se na otkrivanje slika, zvuka i videozapisa generiranih umjetnom inteligencijom s visokom preciznošću.

Intelov FakeCatcher radi na tehnologijama za identifikaciju AI manipulacije u audio i video materijalima.

Čak je i OpenAI predstavio detektor deepfakeova specifično za sadržaj generiran njihovim generatorom slika, DALL-E, i istražuje tehnike digitalnog vodenog žiga.

Zakonodavstvo, rizici, etika

Zakonodavstvo, kao i obično kad je tehnologija u pitanju, trenutno zaostaje za brzim napretkom umjetne inteligencije. Postojeći zakoni o autorskim pravima i intelektualnom vlasništvu često ne pružaju adekvatnu zaštitu za jedinstvene karakteristike glasa pojedinca. Ova pravna siva zona otvara prostor za potencijalne zlouporabe, posebno kada je riječ o dobivanju eksplicitnog pristanka za korištenje nečijeg glasa, osobito glasova javnih osoba ili preminulih pojedinaca.

Potencijal za prijevare i manipulacije korištenjem AI-generiranih glasova raste. Kriminalci mogu koristiti ovu tehnologiju za lažno predstavljanje, izvršavanje financijskih prijevara ili širenje dezinformacija. Etička pitanja protežu se i na područje rada i zapošljavanja. AI glasovi mogu zamijeniti ljudske glasovne glumce u određenim industrijama, otvarajući pitanja o budućnosti tih zanimanja i potrebi za prekvalifikacijom radnika.