Microsoftov AI generator govora, preopasan da bi ga se pustilo u javnost?

VALL-E 2 može uvjerljivo rekreirati ljudske glasove koristeći samo nekoliko sekundi zvuka, tvrde njegovi tvorci iz Microsofta

Mladen Smrekar petak, 12. srpnja 2024. u 06:55
Novi AI generator glasa navodno je dovoljno uvjerljiv da ga se može zamijeniti sa stvarnom osobom 📷 freepik
Novi AI generator glasa navodno je dovoljno uvjerljiv da ga se može zamijeniti sa stvarnom osobom freepik

Microsoft je razvio novi AI generator govora koji je, kažu, toliko uvjerljiv da se ne može pustiti u javnost. VALL-E 2 je generator teksta u govor (TTS) koji može reproducirati glas ljudskog govornika koristeći samo nekoliko sekundi zvuka. On je navodno sposoban generirati "precizan, prirodan govor točnim glasom izvornog govornika, usporediv s ljudskom izvedbom", tvrdi se u radu objavljenom na arXivu. Drugim riječima, novi AI generator glasa dovoljno je uvjerljiv da ga se zamijeni sa stvarnom osobom, barem tako tvrde njegovi tvorci. 

Ljudski paritet

"VALL-E 2 postiže ljudski paritet. Štoviše, on dosljedno sintetizira visokokvalitetni govor, čak i za rečenice koje su tradicionalno izazovne zbog svoje složenosti ili fraza koje se ponavljaju", kažu istraživači. Ljudski paritet u ovom kontekstu znači da govor koji je generirao VALL-E 2 odgovara ili premašuje kvalitetu ljudskog govora u referentnim vrijednostima koje koristi Microsoft i to zahvaljujući ključnim značajkama zvanim Repetition Aware Sampling i Grouped Code Modeling.

VALL-E 2 može generirati točan, prirodan govor u točnom glasu izvornog govornika, usporediv s ljudskom izvedbom, pokazali su eksperimenti na skupovima podataka LibriSpeech i VCTK. 📷 Furu Wei i sur.
VALL-E 2 može generirati točan, prirodan govor u točnom glasu izvornog govornika, usporediv s ljudskom izvedbom, pokazali su eksperimenti na skupovima podataka LibriSpeech i VCTK. Furu Wei i sur.

Prva značajka poboljšava način na koji AI pretvara tekst u govor rješavanjem ponavljanja "tokena", malih jedinica jezika, poput riječi ili dijelova riječi, sprečavajući beskonačne petlje zvukova ili fraza tijekom dekodiranja. Drugim riječima, pomaže mijenjati obrazac govora VALL-E 2, čineći ga fluidnijim i prirodnijim. Druga značajka pak poboljšava učinkovitost smanjenjem duljine niza, ili broja pojedinačnih tokena koje model obrađuje u jednom ulaznom nizu. 

Grouped Code Modeling poboljšava učinkovitost smanjenjem duljine niza ili broja pojedinačnih tokena koje model obrađuje u jednom ulaznom nizu 📷 Furu Wei i sur.
Grouped Code Modeling poboljšava učinkovitost smanjenjem duljine niza ili broja pojedinačnih tokena koje model obrađuje u jednom ulaznom nizu Furu Wei i sur.

Eksperimenti provedeni na skupovima podataka LibriSpeech i VCTK pokazali su da VALL-E 2 nadmašuje prijašnje zero-shot TTS sustave u robusnosti govora, prirodnosti i sličnosti govornika, napisali su istraživači koji ističu kako kvaliteta izlaza VALL-E 2 ovisi o duljini i kvaliteti govornih upita te o faktorima okoline poput pozadinskog šuma.

"Isključivo istraživački projekt"

Microsoft ipak neće javno objaviti VALL-E 2 zbog potencijalnih rizika zlouporabe. To se poklapa s rastućim strahovima oko kloniranja glasa i upotrebe deepfake tehnologije. Druge AI tvrtke poput OpenAI-ja već su postavile slična ograničenja za svoju glasovnu tehnologiju.

"VALL-E 2 je isključivo istraživački projekt. Trenutačno ne planiramo uključiti VALL-E 2 u proizvod niti proširiti pristup javnosti", tvrde istraživači zabrinuti zbog potencijalne zlouporabe modela, krivotvorenja glasovne identifikacije ili lažnog predstavljanja.

No, to ne znači da će VALL-E 2 zauvijek ostati u bunkeru. On bi, kažu, mogao sintetizirati govor koji održava identitet govornika i mogao bi se koristiti za učenje, zabavu, stvaranje novinarskog i autorskog sadržaja, u interaktivnim sustavima glasovnih odgovora, za prijevod ili kao chatbot. Bitno je, upozoravaju, uključiti ​​protokol koji će osigurati da govornik odobrava korištenje svog glasa i sintetizirani model detekcije govora.