Appleov AI model generira zvuk i govor iz nijemih videa
VSSFlow je novi model umjetne inteligencije, razvijen u suradnji s Appleom, koji jedinstvenim sustavom generira zvučne efekte i govor iz videozapisa bez zvuka
Appleovi istraživači, u suradnji sa šest kolega sa Sveučilišta Renmin u Kini, razvili su novi model umjetne inteligencije nazvan VSSFlow. Ovaj napredni sustav koristi inovativnu arhitekturu kako bi iz videozapisa bez zvuka generirao i zvučne efekte i ljudski govor, a sve to unutar jedinstvene i objedinjene platforme.
Do sada su modeli umjetne inteligencije koji generiraju zvuk iz videa uglavnom bili specijalizirani. Oni dizajnirani za stvaranje zvučnih efekata, poput šuma lišća ili zvuka automobila, nisu se dobro snalazili s generiranjem ljudskog govora. S druge strane, sustavi za sintezu govora (text-to-speech) nisu bili sposobni proizvesti realistične ambijentalne zvukove. Prethodni pokušaji da se ova dva zadatka objedine često su se temeljili na pretpostavci da zajedničko treniranje degradira performanse, što je dovodilo do složenih, višefaznih sustava.
Kako VSSFlow funkcionira?
VSSFlow pristupa ovom problemu na potpuno drugačiji način. Ne samo da uspješno spaja dva zadatka, već arhitektura koju su istraživači razvili funkcionira tako da proces učenja generiranja govora poboljšava sposobnost generiranja zvukova i obrnuto. Umjesto da se međusobno ometaju, ova dva zadatka se nadopunjuju. U svojoj srži, VSSFlow koristi više koncepata generativne umjetne inteligencije, uključujući pretvaranje transkripata u fonemske sekvence tokena i učenje rekonstrukcije zvuka iz šuma pomoću tehnike poznate kao "flow-matching". U principu, model se uči kako efikasno krenuti od nasumičnog šuma i transformirati ga u željeni, koherentan zvučni signal.
Sve je to ugrađeno u arhitekturu od deset slojeva koja izravno spaja video i transkriptne signale u proces generiranja zvuka, omogućujući modelu da obrađuje i zvučne efekte i govor unutar jednog sustava. Za generiranje zvuka iz nijemog videa, model koristi vizualne naznake iz videa uzorkovane brzinom od deset sličica u sekundi kako bi oblikovao ambijentalne zvukove. Istovremeno, transkript onoga što osoba u videu govori pruža precizne upute za stvaranje realističnog glasa.

Zajedničko učenje kao ključ uspjeha
Kako bi istrenirali VSSFlow, istraživači su modelu dali mješavinu različitih podataka: nijeme videozapise uparene sa zvukovima okoline, nijeme videozapise govora uparene s transkriptima te podatke za sintezu govora. To mu je omogućilo da istovremeno uči o obje vrste zvuka. Zanimljivo je da model u početku nije mogao automatski generirati pozadinski zvuk i govor istovremeno. Da bi to postigli, tim je dodatno usavršio model na velikom setu sintetičkih primjera u kojima su govor i ambijentalni zvukovi bili pomiješani, kako bi naučio kako oboje trebaju zvučati zajedno.
Kada je testiran u usporedbi s modelima koji su specijalizirani samo za zvučne efekte ili samo za govor, VSSFlow je postigao vrlo konkurentne rezultate u oba zadatka, nadmašivši ih u nekoliko ključnih metrika unatoč korištenju jedinstvenog sustava. Ono što je posebno pohvalno je i to što da je kod VSSFlowa dostupan na GitHubu.
Ako želite vidjeti kako VSSFlow funkcionira u praksi, posjetite ovu poveznicu.