Appleov AI model generira zvuk i govor iz nijemih videa

VSSFlow je novi model umjetne inteligencije, razvijen u suradnji s Appleom, koji jedinstvenim sustavom generira zvučne efekte i govor iz videozapisa bez zvuka

Bug.hr utorak, 10. veljače 2026. u 00:04

Foto: VSSFlow

Appleovi istraživači, u suradnji sa šest kolega sa Sveučilišta Renmin u Kini, razvili su novi model umjetne inteligencije nazvan VSSFlow. Ovaj napredni sustav koristi inovativnu arhitekturu kako bi iz videozapisa bez zvuka generirao i zvučne efekte i ljudski govor, a sve to unutar jedinstvene i objedinjene platforme.

Do sada su modeli umjetne inteligencije koji generiraju zvuk iz videa uglavnom bili specijalizirani. Oni dizajnirani za stvaranje zvučnih efekata, poput šuma lišća ili zvuka automobila, nisu se dobro snalazili s generiranjem ljudskog govora. S druge strane, sustavi za sintezu govora (text-to-speech) nisu bili sposobni proizvesti realistične ambijentalne zvukove. Prethodni pokušaji da se ova dva zadatka objedine često su se temeljili na pretpostavci da zajedničko treniranje degradira performanse, što je dovodilo do složenih, višefaznih sustava.

Kako VSSFlow funkcionira?

VSSFlow pristupa ovom problemu na potpuno drugačiji način. Ne samo da uspješno spaja dva zadatka, već arhitektura koju su istraživači razvili funkcionira tako da proces učenja generiranja govora poboljšava sposobnost generiranja zvukova i obrnuto. Umjesto da se međusobno ometaju, ova dva zadatka se nadopunjuju. U svojoj srži, VSSFlow koristi više koncepata generativne umjetne inteligencije, uključujući pretvaranje transkripata u fonemske sekvence tokena i učenje rekonstrukcije zvuka iz šuma pomoću tehnike poznate kao "flow-matching". U principu, model se uči kako efikasno krenuti od nasumičnog šuma i transformirati ga u željeni, koherentan zvučni signal.

Sve je to ugrađeno u arhitekturu od deset slojeva koja izravno spaja video i transkriptne signale u proces generiranja zvuka, omogućujući modelu da obrađuje i zvučne efekte i govor unutar jednog sustava. Za generiranje zvuka iz nijemog videa, model koristi vizualne naznake iz videa uzorkovane brzinom od deset sličica u sekundi kako bi oblikovao ambijentalne zvukove. Istovremeno, transkript onoga što osoba u videu govori pruža precizne upute za stvaranje realističnog glasa.

Zajedničko učenje kao ključ uspjeha

Kako bi istrenirali VSSFlow, istraživači su modelu dali mješavinu različitih podataka: nijeme videozapise uparene sa zvukovima okoline, nijeme videozapise govora uparene s transkriptima te podatke za sintezu govora. To mu je omogućilo da istovremeno uči o obje vrste zvuka. Zanimljivo je da model u početku nije mogao automatski generirati pozadinski zvuk i govor istovremeno. Da bi to postigli, tim je dodatno usavršio model na velikom setu sintetičkih primjera u kojima su govor i ambijentalni zvukovi bili pomiješani, kako bi naučio kako oboje trebaju zvučati zajedno.

Kada je testiran u usporedbi s modelima koji su specijalizirani samo za zvučne efekte ili samo za govor, VSSFlow je postigao vrlo konkurentne rezultate u oba zadatka, nadmašivši ih u nekoliko ključnih metrika unatoč korištenju jedinstvenog sustava. Ono što je posebno pohvalno je i to što da je kod VSSFlowa dostupan na GitHubu.

Ako želite vidjeti kako VSSFlow funkcionira u praksi, posjetite ovu poveznicu.

Vezano

🎮 144 Hz brzina za vrhunsku preciznost

-38%

4K QLED TV HISENSE 65E7Q PRO + SOUNDBAR -50%

Dijagonala 65" (165 cm), 4K UHD 3840 × 2160, QLED Pro, VIDAA OS, DVB‑T/T2/C/S/S2, HDMI ×4, USB ×2, Wi‑Fi, Bluetooth, Dolby Vision & Dolby Atmos, jamstvo 2+3 godine

549 ~~899~~ Kupi

🎧 Masivan bass, vrhunsko poništavanje buke

-25%

Bluetooth slušalice SONY WH-CH720

Bežične slušalice, razne boje, Bluetooth 5.2, Over‑ear, 30 mm driveri, Aktivno poništavanje buke (ANC) s Dual Noise Sensor + procesor V1, DSEE poboljšanje zvuka, USB‑C punjenje, trajanje baterije do 35 h (ANC ON) / 50 h (ANC OFF), uključuje kabel i USB kabel za punjenje, jamstvo 2 godine

89 ~~119~~ Kupi

⭐ Nevjerojatna slika, nezaboravan Ambilight dojam

-28%

4K QLED TV PHILIPS 65PUS9010/12

Dijagonala 65" (165 cm), Ultra HD 3840 × 2160, Google TV, DVB‑T/T2/C/S/S2, HDMI x4, USB x2, Wi‑Fi, Bluetooth, Ambilight

789 ~~1099~~ Kupi

☀️ Sunce, druženje i glasniji JBL doživljaj

-40%

Bluetooth zvučnik JBL FLIP 6

Bluetooth zvučnik, JBL Original Pro Sound, 30 W snage, IP67 vodootporan i otporan na prašinu, Bluetooth 5.1, do 12 h reprodukcije, USB‑C punjenje, PartyBoost podrška, dostupno u više boja

89,99 149,99 Kupi

🔥 Nevjerojatna 4K jasnoća uz Samsung Neo QLED Mini LED

-33%

4K Neo QLED TV SAMSUNG QE50QN90FATXXH Mini LED

Dijagonala 50" (127 cm), 4K UHD 3840 × 2160, Tizen OS, Neo QLED s Mini LED pozadinskim osvjetljenjem, NQ4 AI Gen3 procesor, HDR10+ / Neo Quantum HDR+, DVB‑T2/C/S2, HDMI ×4 (2.1), USB ×2, Wi‑Fi 5, Bluetooth 5.2, Motion Xcelerator 165 Hz, Dolby Atmos, OTS Lite zvuk

899 ~~1349~~ Kupi

🎶 Surround koji te potpuno uroni u scenu

-43%

Soundbar SAMSUNG HW-Q600F/EN

3.1.2‑kanalni Dolby Atmos i DTS Virtual:X zvuk, 380 W RMS snage, bežični subwoofer, Q‑Symphony i Adaptive Sound, SpaceFit Sound Pro podrška, Game Pro način, HDMI (1× ulaz / 1× izlaz s eARC‑om), optički ulaz, Bluetooth 4.2, USB reprodukcija, masa seta 20.1 kg

259 ~~459~~ Kupi

🎥 Filmski tonovi, žive boje i intuitivan Google TV

-20€

4K QLED TV TCL 65P7K

Dijagonala 65" (165 cm), 4K Ultra HD 3840 × 2160, Google TV Smart platforma, Optimiziran sustav zvuka, Napredna HDR poboljšanja slike, Moderan i tanak dizajn, AI poboljšanje prikaza, Wi‑Fi, Bluetooth

499 ~~519~~ Kupi

💡 Oštar prikaz, glatki pokreti i moderan Smart TV sustav

-37%

4K LED TV HISENSE 65A6Q

Dijagonala 65" (165 cm), Ultra HD 3840 x 2160, AI 4K Upscaler, Game Mode PLUS, Dolby Vision i Audio, VIDAA Smart TV

419 ~~669~~ Kupi

⭐Velik, živopisan 4K QLED doživljaj

-42%

4K QLED TV SAMSUNG QE75Q6FAAUXXH

Dijagonala 75" (190 cm), Ultra HD 3840 x 2160, Tizen, DVB-T2/C/S2, HDMI x3, USB x1, Wi-Fi, Bluetooth, jamstvo 2 godine

799 ~~1399~~ Kupi

👁️ Savršena slika iz svakog kuta

-40%

4K OLED TV SONY K65XR8APAEP

Dijagonala 65" (164 cm), 4K OLED 3840 × 2160, Google TV, HDR10 / HLG / Dolby Vision, HDMI 2.1 ×4 (4K120, VRR, ALLM), USB ×2, Wi‑Fi, Bluetooth 5.3, Acoustic Surface Audio+, jamstvo 2 godine

1549 ~~2599~~ Kupi

🎥 Mini projektor, maksimalan efekt

-40%

Smart mini projector HISENSE C1

4K UHD rezolucija, TriChroma RGB laser, 1600 ANSI lumena, 65–300″ slika, Dolby Vision & Atmos, AutoMagic fokus, 2×10 W JBL zvučnici, HDMI 2.0/2.1 + USB 2.0/3.0, LAN & Wi‑Fi, kompaktno kućište 9.7 × 7.1 × 8.5

1199 ~~1999~~ Kupi

🎬 Profinjena 4K QLED kvaliteta i intuitivni VIDAA OS

-36%

4K QLED TV HISENSE 50A7Q

Dijagonala 50", 4K QLED 3840 × 2160, Direct LED VA panel, ugrađeni subwoofer, Game Mode PLUS, Dolby Vision & Atmos, USB x2

319 ~~499~~ Kupi

🎯 Precizni detalji, prirodne boje i pouzdan LG webOS

-21%

4K LED TV LG 50UA75003LA

Dijagonala 50" (127 cm), 4K UHD TV, Alpha 7 AI Processor Gen8, webOS 25, HDR10 Pro, AI Picture i Sound Wizard, 60 Hz

369 ~~469~~ Kupi

💎 Kristalno jasan odabir

-33%

4K LED TV SAMSUNG UE65U8072FUXXH

Dijagonala 65" (165 cm), Crystal 4K procesor, MetalStream dizajn, One UI Tizen, Motion Xcelerator, SmartThings aplikacija, 50Hz

499 ~~749~~ Kupi

Zadnji komentari na forumu

HCMAA 10. veljače 2026.

znači nema više slobode govora bez maske na licu

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

HI-FI SETUP TJEDNA

Acoustic Energy & Arcam

Nova generacija Arcam pojačala uparena s nagrađivanim Acoustic Energy zvučnicima.

Kupi

U središtu svakog vrhunskog stereo sustava.

Akcija

ARCAM A5+

Bežični audio s Bluetooth 5.4, S podrškom za Snapdragon Sound za bežični audio bez gubitaka, S podrškom za Auracast za povezivanje bežičnih slušalica ili zvučnika za reprodukciju glazbe u više prostorija, Hi-res audio digitalni ulazi

739 € ~~899 €~~ Kupi

Pravi britanski audiofilski zvučnik.

Akcija

FALCON ACOUSTICS M10

2-smjerni bas-refleks monitor, Frekvencijski odziv: 40 Hz – 25 kHz (+/-3 dB), 70 Hz – 20 kHz (+/-2 dB), Impedancija: 8 /u2126, osjetljivost: 86 dB / 2.83V / 1m, maksimalna snaga: 100 W

2.249 € ~~2.999 €~~ Kupi

Velik zvuk u elegantnom formatu.

Akcija

REVEL M105 Performa 3

JBL Spinner BT, remenski pogon, aluminijski tanjur, aluminijska igla, prilagodljivi anti-skate, Bluetooth output, RCA output, iskljucivi MM phono stage

999 € ~~1.499 €~~ Akcija

Premium bežične in-ear slušalice s ANC-om

Akcija

BOSE QuietComfort Ultra Earbuds (2nd Gen)

In-ear slušalice s vrhunskim prilagodljivim zvukom, CustomTune tehnologijom, naprednim ANC-om, Bose Immersive Audio podrškom, IPX4 zaštitom i do 6 sati reprodukcije.

349 € ~~375 €~~ Akcija

Pravi hi-fi doživljaj za filmove, glazbu i gaming.

Akcija

JBL MA510

Kvalitetan kućni kino zvuk uz podršku za 4K i 8K video, Dolby Atmos i DTS:X dekodiranje, Class D pojačanje, Bluetooth i mrežni streaming te jednostavno povezivanje s televizorom, konzolama i drugim izvorima.

559 € ~~789 €~~ Akcija

Snažni zvučnik za zahtjevne slušatelje.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

979 € ~~1.399 €~~ Kupi