Microsoftov sustav VALL-E iz tri sekunde govora može sintetizirati bilo čiji glas

Ono što je DALL-E za slike, VALL-E bi trebao biti za ljudski glas. Novi sustav jezičnog modeliranja i računalne sinteze glasa treba samo tri sekunde uzorka kako bi uspješno imitirao bilo koga

Sandro Vrbanus četvrtak, 12. siječnja 2023. u 13:20

Microsoft je odlučio mnogo toga uložiti u umjetnu inteligenciju i njezin razvoj u nadolazećim godinama. Već sada znamo da su najveći pojedinačni investitor u OpenAI. U organizaciju koja je izradila ChatGPT i DALL-E do sada su uložili milijardu dolara. Ona trenutačno vrijedi, prema nekim procjenama, 29 milijardi dolara, a Microsoft je u dogovorima da uloži dodatnih 10 milijardi i preuzme 49% vlasničkog udjela u kompaniji koja ima potencijal redefinirati budućnost umjetne inteligencije (i ne samo nje).

Deepfake za glas

Nova tehnologija koja se "kuha" u Microsoftu sada se tiče unaprjeđenja modela "text-to-speech", onih koji iz napisanog teksta sintetiziraju prirodni ljudski glas (vidi: Gabrijela i Srećko). No, njihovi su stručnjaci otišli korak dalje od generiranja sintetičkog ljudskog glasa, pa su uspjeli istrenirati umjetnu inteligenciju da im stvara realistične replike glasova stvarnih ljudi.

Sustav VALL-E, izrađen u Microsoftu i prikazan tek kroz nekoliko demo primjera, koristi napredne računalne neuronske mreže za analizu teksta kroz jezične modele. U to potom kombinira primjere zvučnih zapisa na temelju kojih može generirati nove zvukove. Sustav je treniran na 60 tisuća sati govora oko 7 tisuća različitih govornika na engleskom jeziku, za što kažu da je više stotina puta veći podatkovni skup od onih korištenih na dosadašnjim sličnim sustavima.

Dijagram rada sustava VALL-E. Autori kažu da podržava i vanjske sustave generiranja teksta, poput ChatGPT-a

Krajnji rezultat – VALL-E treba "čuti" samo tri sekunde nečijeg govora, da bi glas te osobe uspješno iskoristio za daljnje generiranje zvuka, "govoreći" glasom te osobe. Dodatnu prednost pred postojećim modelima ovaj sustav donosi i zadržavanjem potrebne emocije u glasu, čak i naglaska te zvučnog okruženja, kakvo je "čuo" u tri sekunde uzorka.

Fascinantan, ali i opasan

Na stranicama, na kojima su sustav i prateći rad predstavljeni, može se naći određeni broj primjera sintetiziranog glasa, kao i uzoraka na temelju kojih su nastali. Kao i ChatGPT ili DALL-E, i ova tehnologija već sada fascinira svojom izvedbom i realističnošću konačnog rezultata.

Autori VALL-E-ja na kraju napominju da shvaćaju etičke implikacije računalnog programa koji je u stanju vjerno replicirati bilo čiji glas. Veliki su rizici povezani s mogućim neželjenim korištenjem – od kreiranja deepfake sadržaja, preko varanja sustava za autentifikaciju glasom, pa do najobičnijeg lažnog predstavljanja vjernim oponašanjem. Sustav stoga nije otvoren za javno korištenje, a prije eventualnog puštanja u javnost, potrebno je osigurati da govornik, čiji glas se uzima kao uzorak, bude svjestan toga i da može dati potrebnu privolu za daljnje računalno sintetiziranje vlastitog glasa.

Vezano

📢 Uštedi 130€!

LENOVO IdeaPad Slim 1

469,99€ ~~599,99€~~ Kupi

📢 Uštedi 15%

Philips monitor

159,99€ ~~189,99€~~ Kupi

📢 Akcija!

Logitech periferija

Od 49,99€ Kupi

Zadnji komentari na forumu

kirat 13. siječnja 2023.

T-1000 je imao tu mogucnost :-)

ante_etna 13. siječnja 2023.

Opet je stvarnost nadmašila fantaziju. Da je Skynet imao ovakvu tehnologiju, Cyberdyne Systems Model 101 ili skraćeno T-800 bi imao prikladniji naglasak za okružje u kojem je djelovao, a ne kao austrijski turist u Istri kad mu Keljmendi kaže da mu nedostaje još dvije k...

MEGATAMA 13. siječnja 2023.

Ovakva stvar bi morala bit apsolutno ilegalna,sigurnosni sistemi na bazi glasa su sad nula bodova.

ihush 12. siječnja 2023.

srećko i gabrijela su dobili klinca.. :)

Horned Reaer 12. siječnja 2023.

Sta ce biti za par stotina godina, vjerovatno ce umjetna inteligencija biti toliko razvijena da ce dobiti svijest o postojanju !! Odnosno stvorit cemo novi oblik zivota sinteticki ! Mislim ako se kombiniraju neoronske stanice sa cipovima svasta je moguce

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Izvanredan stereo zvuk za male sobe.

Bežični Hi-Fi zvučnici AUDIOENGINE HD3

120 W ukupne maksimalne snage (30 W RMS / 60 W maksimalno po kanalu), tip pojacala: klasa AB, frekvencijski odziv: 60 Hz-22 kHz ±1.5 dB, Bluetooth 5.0, podržani kodeci: aptX HD, aptX, AAC, SBC, SNR: >95 dB (tipicno A-ponderirano), THD+N: Manje od 0,05% pri svim postavkama snage,

279 € ~~359 €~~ Akcija

Savršeni sklad snage i performansi.

Stereo pojačalo PARASOUND 275 V2

2-kanalno power pojačalo, snaga 90 watts x 2 (8 ohma), 150 watts x 2 (4,2 ohma), bridgeg 200W mono, kapacitet struje 20 amps vršno po kanalu, frekvencijski odziv 20 Hz - 50 kHz.

1.093 € ~~1.287 €~~ Akcija

Bluetooth, Spotify, Internet radio, Wi-Fi streaming.

Kompaktni audio sustav COMO AUDIO Solo

Bežični zvučnik sa Bluetooth i Wi-Fi povezivošću, FM i internet radiom te podrškom za Spotify Connect i multi-room. Snaga 30W po kanalu. Uključen daljinski upravljač. USB ulaz. Veliki zaslon u boji. Funkcionalnosti sata i budilice. iOS i Android Como aplikacija za kontrolu.

372 € ~~397 €~~ Akcija

Revolucionarni Bose Immersive Audio.

Slušalice BOSE QuietComfort Ultra Earbuds

Revolucionarni prostorizirani zvuk za impresivnije slušanje koje cini vašu glazbu stvarnijom nego ikad prije - bez obzira na sadržaj ili izvor. Poništavanje buke svjetske klase i zvuk prilagoden vama

369 € Novo

Novi dodatak nagradivanoj obitelji LSX.

Bežični Hi-Fi zvučnici KEF LSX II LT

Pokretan KEF-ovim Music Integrity Engineom i potpisnim nizom drajvera Uni-Q, ovaj kompaktni bežicni Hi-Fi zvucnicki sustav pruža neusporedivu jasnocu zvuka. AirPlay 2, Chromecast i Spotify, HDMI ARC i USB-C ulaz.

999 € Novo

Klasičan Wharfedale dizajn u suvremenom ruhu.

Zvučnici WHARFEDALE Super Denton

3-smjerni standmount, bass reflex, osjetljivost: 87dB, Preporučena snaga pojačala: 25-120W, Vršni SPL: 103dB, frekvencijski odziv: 52Hz - 20kHz

1.200 € Novo

Gen2 Obsidian Folded Motion® visokotonac XT

Zvučnici MARTIN LOGAN Motion XT F100 White

Doživite iznimnu kvalitetu zvuka s MartinLoganovim Gen2 Folded Motion® XT visokotoncem koji sadrži tehnologiju Folded Motion® Waveguide neprimjetno integriranu u elegantan dizajn prednje pregrade.

6.209 € NOVO

Legenda među prijenosnim zvučnicima.

Prijenosni zvučnik MARSHALL Tufton

Tufton nudi više od 20 sati prijenosnog igranja, što vam omogucuje da idete dalje, dulje. Tehnologija Bluetooth® 5.0 omogucuje vam povezivanje s raznim bežicnim uredajima s dometom od 30 stopa (9,14 m).

449 € Kupi

Jedinstvena AMBEO 3D tehnologija.

Soundbar SENNHEISER AMBEO Max

Osim što podržava Dolby Atmos, MPEG-H i DTS:X, njegova Upmix tehnologija rekreira stereo i 5.1 sadržaj kao uzbudljivo iskustvo 3D zvuka. Soundbar takoder ima pet razlicitih za savršeno prilagodavanje frekvencija i 3D zvucnih karakteristika zvuka prema sadržaju.

2.449 € Kupi

Slim i praktičan AV receiver.

AV receiver MARANTZ NR1510

Tanki 5.2-kanalni Ultra HD AV receiver sa ugradenom HEOS tehnologijom, snaga 50W po kanalu (8 ohma), 6 HDMI ulaza sa punom HDCP 2.3 podrškom, podrška za Dolby Vision, Hybrid Log-Gamma, eARC i ALLM, 4K/60 Hz full-rate pass-through, 24-bit/192-kHz, Wi-Fi.

539 € Kupi

Hibridno digitalno DAC pojačalo.

Digitalno pojačalo NAD C 338

D/A konverter, kontinuiranih 2 x 50W na 8 ili 4 Ohma, Hybrid Digital Amplification tehnologija,2 x opticki i 2 x koaksijalni digitalni ulazi, 2 x Analogni ulazi, Phono ulaz, subwoofer izlaz,Wi-Fi s mogucnošcu streaminga glazbenih servisa, internet radio, UPnP protokol,bluetooth ADP4 sa aptX

749 € Kupi

Ručno sastavljeni u britanskom Oxfordu.

Zvučnici FALCON ACOUSTICS M10

2-smjerni, 25 mm visokotonac s mekom kupolom M raspona izrađen prema specifikaciji Falcon od strane SEAS-a, Frekvencijski odziv: 40Hz-25kHz +/- 3dB, 70Hz – 20Khz +/-2dB Impedancija: 8 ohma Osjetljivost: 86dB/2,83V/m

2.120 € ~~2.650 €~~ Akcija