Microsoftov AI generator govora, preopasan da bi ga se pustilo u javnost?

VALL-E 2 može uvjerljivo rekreirati ljudske glasove koristeći samo nekoliko sekundi zvuka, tvrde njegovi tvorci iz Microsofta

Mladen Smrekar petak, 12. srpnja 2024. u 06:55

Novi AI generator glasa navodno je dovoljno uvjerljiv da ga se može zamijeniti sa stvarnom osobom freepik

Microsoft je razvio novi AI generator govora koji je, kažu, toliko uvjerljiv da se ne može pustiti u javnost. VALL-E 2 je generator teksta u govor (TTS) koji može reproducirati glas ljudskog govornika koristeći samo nekoliko sekundi zvuka. On je navodno sposoban generirati "precizan, prirodan govor točnim glasom izvornog govornika, usporediv s ljudskom izvedbom", tvrdi se u radu objavljenom na arXivu. Drugim riječima, novi AI generator glasa dovoljno je uvjerljiv da ga se zamijeni sa stvarnom osobom, barem tako tvrde njegovi tvorci.

Ljudski paritet

"VALL-E 2 postiže ljudski paritet. Štoviše, on dosljedno sintetizira visokokvalitetni govor, čak i za rečenice koje su tradicionalno izazovne zbog svoje složenosti ili fraza koje se ponavljaju", kažu istraživači. Ljudski paritet u ovom kontekstu znači da govor koji je generirao VALL-E 2 odgovara ili premašuje kvalitetu ljudskog govora u referentnim vrijednostima koje koristi Microsoft i to zahvaljujući ključnim značajkama zvanim Repetition Aware Sampling i Grouped Code Modeling.

VALL-E 2 može generirati točan, prirodan govor u točnom glasu izvornog govornika, usporediv s ljudskom izvedbom, pokazali su eksperimenti na skupovima podataka LibriSpeech i VCTK. 📷 Furu Wei i sur. — VALL-E 2 može generirati točan, prirodan govor u točnom glasu izvornog govornika, usporediv s ljudskom izvedbom, pokazali su eksperimenti na skupovima podataka LibriSpeech i VCTK. Furu Wei i sur.

Prva značajka poboljšava način na koji AI pretvara tekst u govor rješavanjem ponavljanja "tokena", malih jedinica jezika, poput riječi ili dijelova riječi, sprečavajući beskonačne petlje zvukova ili fraza tijekom dekodiranja. Drugim riječima, pomaže mijenjati obrazac govora VALL-E 2, čineći ga fluidnijim i prirodnijim. Druga značajka pak poboljšava učinkovitost smanjenjem duljine niza, ili broja pojedinačnih tokena koje model obrađuje u jednom ulaznom nizu.

Grouped Code Modeling poboljšava učinkovitost smanjenjem duljine niza ili broja pojedinačnih tokena koje model obrađuje u jednom ulaznom nizu 📷 Furu Wei i sur. — Grouped Code Modeling poboljšava učinkovitost smanjenjem duljine niza ili broja pojedinačnih tokena koje model obrađuje u jednom ulaznom nizu Furu Wei i sur.

Eksperimenti provedeni na skupovima podataka LibriSpeech i VCTK pokazali su da VALL-E 2 nadmašuje prijašnje zero-shot TTS sustave u robusnosti govora, prirodnosti i sličnosti govornika, napisali su istraživači koji ističu kako kvaliteta izlaza VALL-E 2 ovisi o duljini i kvaliteti govornih upita te o faktorima okoline poput pozadinskog šuma.

"Isključivo istraživački projekt"

Microsoft ipak neće javno objaviti VALL-E 2 zbog potencijalnih rizika zlouporabe. To se poklapa s rastućim strahovima oko kloniranja glasa i upotrebe deepfake tehnologije. Druge AI tvrtke poput OpenAI-ja već su postavile slična ograničenja za svoju glasovnu tehnologiju.

Microsoft has developed a new artificial intelligence (AI) speech generator that is apparently so convincing it cannot be released to the public. VALL-E 2 is a text-to-speech (TTS) generator that can reproduce the voice of a human speaker. But already has been released to CIA! pic.twitter.com/s9ap6JsvlB
— NM (@NM100011001) July 11, 2024

"VALL-E 2 je isključivo istraživački projekt. Trenutačno ne planiramo uključiti VALL-E 2 u proizvod niti proširiti pristup javnosti", tvrde istraživači zabrinuti zbog potencijalne zlouporabe modela, krivotvorenja glasovne identifikacije ili lažnog predstavljanja.

No, to ne znači da će VALL-E 2 zauvijek ostati u bunkeru. On bi, kažu, mogao sintetizirati govor koji održava identitet govornika i mogao bi se koristiti za učenje, zabavu, stvaranje novinarskog i autorskog sadržaja, u interaktivnim sustavima glasovnih odgovora, za prijevod ili kao chatbot. Bitno je, upozoravaju, uključiti protokol koji će osigurati da govornik odobrava korištenje svog glasa i sintetizirani model detekcije govora.

Vezano

Zadnji komentari na forumu

Gebirgs 12. srpnja 2024.

Gospodari realnosti su dobili nove igracke. Filmovi, serije itd, tu ima da bude lom za 10-ak godina. Ucitas knjigu, AI pljune van film ili seriju. S fotorealisticnim glumcima itd. Mogucnosti manipulacije vijestima ili sl teme, da ne spominjem. Mozda na kraju nadju WMD's u Iraku

CyberDemonVZ 12. srpnja 2024.

A baš su mogli napisati i nama važnu informaciju, sintetizira se samo engleski jezik?

ninotocka 12. srpnja 2024.

To mi je ono, "drž'te me, razbit ću ga"

Ajar 12. srpnja 2024.

ballmer je bio još opasniji i opaka štetočina pa su ga svejedno pustili u javnost. nije ni nadella za bacit, dahće mu za vrat.

notloB 12. srpnja 2024.

Preopasan je i OS ali im je pobjegao...