Microsoftov AI generator govora, preopasan da bi ga se pustilo u javnost?
VALL-E 2 može uvjerljivo rekreirati ljudske glasove koristeći samo nekoliko sekundi zvuka, tvrde njegovi tvorci iz Microsofta
Microsoft je razvio novi AI generator govora koji je, kažu, toliko uvjerljiv da se ne može pustiti u javnost. VALL-E 2 je generator teksta u govor (TTS) koji može reproducirati glas ljudskog govornika koristeći samo nekoliko sekundi zvuka. On je navodno sposoban generirati "precizan, prirodan govor točnim glasom izvornog govornika, usporediv s ljudskom izvedbom", tvrdi se u radu objavljenom na arXivu. Drugim riječima, novi AI generator glasa dovoljno je uvjerljiv da ga se zamijeni sa stvarnom osobom, barem tako tvrde njegovi tvorci.
Ljudski paritet
"VALL-E 2 postiže ljudski paritet. Štoviše, on dosljedno sintetizira visokokvalitetni govor, čak i za rečenice koje su tradicionalno izazovne zbog svoje složenosti ili fraza koje se ponavljaju", kažu istraživači. Ljudski paritet u ovom kontekstu znači da govor koji je generirao VALL-E 2 odgovara ili premašuje kvalitetu ljudskog govora u referentnim vrijednostima koje koristi Microsoft i to zahvaljujući ključnim značajkama zvanim Repetition Aware Sampling i Grouped Code Modeling.
Prva značajka poboljšava način na koji AI pretvara tekst u govor rješavanjem ponavljanja "tokena", malih jedinica jezika, poput riječi ili dijelova riječi, sprečavajući beskonačne petlje zvukova ili fraza tijekom dekodiranja. Drugim riječima, pomaže mijenjati obrazac govora VALL-E 2, čineći ga fluidnijim i prirodnijim. Druga značajka pak poboljšava učinkovitost smanjenjem duljine niza, ili broja pojedinačnih tokena koje model obrađuje u jednom ulaznom nizu.
Eksperimenti provedeni na skupovima podataka LibriSpeech i VCTK pokazali su da VALL-E 2 nadmašuje prijašnje zero-shot TTS sustave u robusnosti govora, prirodnosti i sličnosti govornika, napisali su istraživači koji ističu kako kvaliteta izlaza VALL-E 2 ovisi o duljini i kvaliteti govornih upita te o faktorima okoline poput pozadinskog šuma.
"Isključivo istraživački projekt"
Microsoft ipak neće javno objaviti VALL-E 2 zbog potencijalnih rizika zlouporabe. To se poklapa s rastućim strahovima oko kloniranja glasa i upotrebe deepfake tehnologije. Druge AI tvrtke poput OpenAI-ja već su postavile slična ograničenja za svoju glasovnu tehnologiju.
"VALL-E 2 je isključivo istraživački projekt. Trenutačno ne planiramo uključiti VALL-E 2 u proizvod niti proširiti pristup javnosti", tvrde istraživači zabrinuti zbog potencijalne zlouporabe modela, krivotvorenja glasovne identifikacije ili lažnog predstavljanja.
No, to ne znači da će VALL-E 2 zauvijek ostati u bunkeru. On bi, kažu, mogao sintetizirati govor koji održava identitet govornika i mogao bi se koristiti za učenje, zabavu, stvaranje novinarskog i autorskog sadržaja, u interaktivnim sustavima glasovnih odgovora, za prijevod ili kao chatbot. Bitno je, upozoravaju, uključiti protokol koji će osigurati da govornik odobrava korištenje svog glasa i sintetizirani model detekcije govora.