Microsoftov sustav VALL-E iz tri sekunde govora može sintetizirati bilo čiji glas

Ono što je DALL-E za slike, VALL-E bi trebao biti za ljudski glas. Novi sustav jezičnog modeliranja i računalne sinteze glasa treba samo tri sekunde uzorka kako bi uspješno imitirao bilo koga

Sandro Vrbanus četvrtak, 12. siječnja 2023. u 13:20

Microsoft je odlučio mnogo toga uložiti u umjetnu inteligenciju i njezin razvoj u nadolazećim godinama. Već sada znamo da su najveći pojedinačni investitor u OpenAI. U organizaciju koja je izradila ChatGPT i DALL-E do sada su uložili milijardu dolara. Ona trenutačno vrijedi, prema nekim procjenama, 29 milijardi dolara, a Microsoft je u dogovorima da uloži dodatnih 10 milijardi i preuzme 49% vlasničkog udjela u kompaniji koja ima potencijal redefinirati budućnost umjetne inteligencije (i ne samo nje).

Deepfake za glas

Nova tehnologija koja se "kuha" u Microsoftu sada se tiče unaprjeđenja modela "text-to-speech", onih koji iz napisanog teksta sintetiziraju prirodni ljudski glas (vidi: Gabrijela i Srećko). No, njihovi su stručnjaci otišli korak dalje od generiranja sintetičkog ljudskog glasa, pa su uspjeli istrenirati umjetnu inteligenciju da im stvara realistične replike glasova stvarnih ljudi.

Sustav VALL-E, izrađen u Microsoftu i prikazan tek kroz nekoliko demo primjera, koristi napredne računalne neuronske mreže za analizu teksta kroz jezične modele. U to potom kombinira primjere zvučnih zapisa na temelju kojih može generirati nove zvukove. Sustav je treniran na 60 tisuća sati govora oko 7 tisuća različitih govornika na engleskom jeziku, za što kažu da je više stotina puta veći podatkovni skup od onih korištenih na dosadašnjim sličnim sustavima.

Dijagram rada sustava VALL-E. Autori kažu da podržava i vanjske sustave generiranja teksta, poput ChatGPT-a

Krajnji rezultat – VALL-E treba "čuti" samo tri sekunde nečijeg govora, da bi glas te osobe uspješno iskoristio za daljnje generiranje zvuka, "govoreći" glasom te osobe. Dodatnu prednost pred postojećim modelima ovaj sustav donosi i zadržavanjem potrebne emocije u glasu, čak i naglaska te zvučnog okruženja, kakvo je "čuo" u tri sekunde uzorka.

Fascinantan, ali i opasan

Na stranicama, na kojima su sustav i prateći rad predstavljeni, može se naći određeni broj primjera sintetiziranog glasa, kao i uzoraka na temelju kojih su nastali. Kao i ChatGPT ili DALL-E, i ova tehnologija već sada fascinira svojom izvedbom i realističnošću konačnog rezultata.

Autori VALL-E-ja na kraju napominju da shvaćaju etičke implikacije računalnog programa koji je u stanju vjerno replicirati bilo čiji glas. Veliki su rizici povezani s mogućim neželjenim korištenjem – od kreiranja deepfake sadržaja, preko varanja sustava za autentifikaciju glasom, pa do najobičnijeg lažnog predstavljanja vjernim oponašanjem. Sustav stoga nije otvoren za javno korištenje, a prije eventualnog puštanja u javnost, potrebno je osigurati da govornik, čiji glas se uzima kao uzorak, bude svjestan toga i da može dati potrebnu privolu za daljnje računalno sintetiziranje vlastitog glasa.

Vezano

Zadnji komentari na forumu

kirat 13. siječnja 2023.

T-1000 je imao tu mogucnost :-)

ante_etna 13. siječnja 2023.

Opet je stvarnost nadmašila fantaziju. Da je Skynet imao ovakvu tehnologiju, Cyberdyne Systems Model 101 ili skraćeno T-800 bi imao prikladniji naglasak za okružje u kojem je djelovao, a ne kao austrijski turist u Istri kad mu Keljmendi kaže da mu nedostaje još dvije k...

MEGATAMA 13. siječnja 2023.

Ovakva stvar bi morala bit apsolutno ilegalna,sigurnosni sistemi na bazi glasa su sad nula bodova.

ihush 12. siječnja 2023.

srećko i gabrijela su dobili klinca.. :)

Horned Reaer 12. siječnja 2023.

Sta ce biti za par stotina godina, vjerovatno ce umjetna inteligencija biti toliko razvijena da ce dobiti svijest o postojanju !! Odnosno stvorit cemo novi oblik zivota sinteticki ! Mislim ako se kombiniraju neoronske stanice sa cipovima svasta je moguce

Sniženje do -40%

Vrhunski hi-fi zvuk uz najbolje popuste!

Za potpuni doživljaj i profesionalno savjetovanje, posjetite našu Ronis slušaonicu na Velesajmu i osobno isprobajte Hi-Fi sustave uživo!

Kupi

Uni-Q driver s MAT™ tehnologijom.

Akcija

KEF Q7 Meta

Trosistemski bass-reflex zvučnik s Uni-Q driverom, frekvencijski raspon 39 Hz – 20 kHz, osjetljivost 87 dB, impedancija 4 Ω, preporučena snaga pojačala 15 – 200 W

1.279 € ~~1.599 €~~ Akcija

Donose pravi DALI Hi-Fi zvuk u svaki prostor.

Izbor kupaca

DALI KUPID Black Ash

Frekvencijski raspon: 63 – 25.000 Hz (±3 dB), osjetljivost: 83 dB, mominalna impedancija: 4 Ohma, Preporučena snaga pojačala: 40 – 120 W, Frekvencija skretnice: 2.100 Hz, Tip kućišta: Bass reflex

338 € Kupi

Uključena Pick it MM E zvučnica

PRO-JECT E1.2, , PICK IT, MM

Gramofon s elektroničkom promjenom brzine 33/45 o/min i remenskim pogonom, omjer signal/šum 65 dB, wow & flutter do ±0,23 %, ručka 218,5 mm / 7 g, potrošnja 4,5 W,

329 € Kupi

Spaja bezvremenski dizajn s vrhunskom akustičnom tehnologijom.

KEF Coda W Dark Titanium

Podržava Bluetooth 5.4 s aptX Adaptive i aptX Lossless, ima phono ulaz za gramofon, USB-C, AUX ulaz te izlaz za subwoofer, što omogućuje jednostavno proširenje sustava. Bilo da slušate streaming, vinil, s računala ili TV, sve se spaja izravno na zvučnike.

899 € Kupi

Visokoučinkovito pojačalo za streaming.

Bluesound PowerNode N331

Sa 100 W po kanalu, HDMI eARC priključkom i BluOS™ podrškom za više prostorija, spaja pravi HiFi doživljaj s modernom praktičnošću. Bilo da ga koristite za glazbu, filmove ili oboje, dizajniran je da pojednostavi vaš sustav bez kompromisa u kvaliteti zvuka.

1.049 € Kupi

Premium 32-bitni DAC

Izbor kupaca

WiiM Ultra

Mrežni audio streamer s DAC-om visoke rezolucije, podrška za streaming servise i lokalnu mrežu, Wi-Fi i Ethernet povezivanje, Bluetooth, HDMI ARC i analogni/digitalni ulazi i izlazi, upravljanje putem aplikacije i zaslona osjetljivog na dodir, kompaktne dimenzije i niska potrošnja energije.

399 € Kupi

Posjetite našu Hi-Fi slušaonicu.