Realistična lica koja govore stvorena od audio zapisa i fotografija

Program temeljen na umjetnoj inteligenciji i strojnom učenju snima zvuk i fotografije iz kojih izrađuje video s realističnim animacijama lica sinkroniziranog s govorom

Mladen Smrekar ponedjeljak, 20. studenog 2023. u 11:15

Program koji su razvili singapurski stručnjaci poboljšava postojeće pristupe koji se muče s varijacijama poza i pokazivanjem emocija animiranog lika NTU

Na temelju fotografija i zvučnog zapisa glasa neke osobe, istraživači Tehnološkog sveučilišta Nanyang u Singapuru (NTU) razvili su računalni program koji stvara realistične videozapise s izrazima lica i pokretima glave.

Realistične animacije

Njihov DIverse yet Realistic Facial Animations, odnosno "raznovrsne, ali realistične animacije lica" ili skraćeno DIRFA je program temeljen na umjetnoj inteligenciji koji snima zvuk i fotografiju i proizvodi 3D video na kojem osobu pokazuje realistične i dosljedne animacije lica sinkronizirane sa zvučnim zapisom.

Stvaranje realističnih izraza lica uz pomoć zvuka složen je izazov. Za određeni audio signal mogu postojati brojni mogući izrazi lica, a te se mogućnosti mogu umnožiti kada se radi o nizu audio signala tijekom vremena. Budući da zvuk obično ima jake veze s pokretima usana, ali slabije veze s izrazima lica i položajem glave, istraživači su se usredotočili na stvaranje lica koja govore i pritom pokazuju preciznu sinkronizaciju usana, bogate izraze lica i prirodne pokrete glave koji odgovaraju pruženom zvuku.

Mnoštvo varijacija

"Govor pokazuje mnoštvo varijacija. Pojedinci izgovaraju iste riječi različito u različitim kontekstima, uključujući varijacije u trajanju, amplitudi, tonu i još mnogo toga. Nadalje, izvan svoje jezične sadržaja, govor prenosi bogate informacije o govornikovom emocionalnom stanju i faktorima identiteta kao što su spol, dob, etnička pripadnost, pa čak i osobine ličnosti", objasnili su istraživači u radu predstavljenom u časopisu Pattern Recognition.

Usporedbe DIRFA-e s najsuvremenijim pristupima generiranja govornih lica vođenih zvukom 📷 NTU — Usporedbe DIRFA-e s najsuvremenijim pristupima generiranja govornih lica vođenih zvukom NTU

Kako bi predvidjeli znakove iz govora i povezali ih s izrazima lica i pokretima glave, DIRFA-u su obučavali na više od milijun audiovizualnih isječaka oko 6000 ljudi iz baze podataka otvorenog koda The VoxCeleb2 Dataset.

Transformacija ulaza

DIRFA je modelirala vjerojatnost animacije lica, poput podignute obrve ili naboranog nosa, na temelju ulaznog zvuka. Ovo modeliranje je omogućilo programu da transformira audio ulaz u različite, ali vrlo realistične sekvence lica animacije koje će voditi generaciju lica koja govore.

Principa rada programa singapurskih istraživača 📷 NTU — Principa rada programa singapurskih istraživača NTU

Istraživači vjeruju da bi DIRFA mogla omogućiti nove načine primjene u raznim industrijama i područjima, uključujući zdravstvo, jer bi mogla omogućiti sofisticiranije i realističnije virtualne asistente i chatbotove i poboljšati korisnička iskustva. DIRFA bi, kažu oni, mogla postati moćan alat za osobe s poteškoćama u govoru ili pomicanju lica i pomoći im da svoje misli i emocije prenesu putem ekspresivnih avatara ili digitalnih prikaza.

DIRFA prikazuje realistične i dosljedne animacije lica sinkronizirane sa zvučnim zapisom 📷 NTU — DIRFA prikazuje realistične i dosljedne animacije lica sinkronizirane sa zvučnim zapisom NTU

Opsežni eksperimenti pokazali su da DIRFA može generirati lica koja govore s točnim pokretima usana, živopisnim izrazima lica i prirodnim položajem glave. Singapurski stručnjaci na tome ne staju i sad rade na poboljšanju sučelja programa, dodatnim opcijama i finom podešavaju izraza lica.

Vezano

📢 Uštedi

Laptop ASUS VivoBook 15

Sniženo

449,99€ ~~489,99€~~ Kupi

📢 Uštedi

HONOR Magic 7 Lite

Uhvati priliku

349,99€ ~~399,99€~~ Kupi

📢 Uštedi

Monitor 32" SAMSUNG

Provjeri odmah

379,99€ ~~439,99€~~ Kupi

📢 Uštedi

Digitalni fotoaparat NIKON Z30 + 12-28VR

Na popustu

999,99€ ~~1.199,99€~~ Kupi

📢 Otkrij

Ruksak za laptop OCTIO Essentials MultiPack

Provjeri odmah

14,99 € ~~19,99€~~ Kupi

📢 Uštedi

Električni romobil XIAOMI Electric Scooter 4 Lite (2nd Gen)

Uhvati uštedu

299,99€ ~~359,99€~~ Kupi

📢 Otkrij

Računalo LINKS Multimedia

Saznaj više

749,99€ Kupi

📢 Otkrij

Tablet XIAOMI Redmi Pad 2

Iskoristi akciju

199,00€ ~~209,00€~~ Kupi

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

-30% na vrhunski JBL Hi-Fi!

Akcija

JBL Stage Hi-Fi zvučnici i moćni JBL AV receivere

Zapanjujući stereo zvuk, snaga i moderan dizajn – sve što ti treba za pravi audio doživljaj u tvom domu.

Akcija

50th Anniversary Limited Edition.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC monitor s Falcon B110 wooferom i T27 visokotoncem, 70Hz–20kHz, 15Ω, 82.5dB, 50–80W, Golden Madrone furnir, dimenzije 305 x 190 x 165 mm.

3.439,00 € ~~4.299,00 €~~ Akcija

Iznimne performanse i svestranost.

Akcija

PARASOUND JC3+ phono pretpojačalo

Frekvencijski raspon: 20 Hz - 20 kHz, +/- 0.2 dB, THD: < 0.01% at 1 kHz, SNR, MM > 87 dB, input shorted, IHF A-weighted > 78 dB, input shorted, unweighted

3.822,00 € ~~4.778,00 €~~ Akcija

Next Generation HDI™ valovod.

Akcija

JBL Stage 250B

5.25" poliselulozni woofer, 1" anodizirani aluminijski visokotonac s HDI™ horna valovodom, 2-smjerni sustav, skretnica na 1.7kHz, frekvencijski odziv 50Hz–25kHz (±6dB), osjetljivost 86dB, impedancija 6Ω, preporučena snaga pojačala 20–150W, bass-reflex kućište s otvorom straga

349,30 € ~~499,00 €~~ Akcija

Savršen za srednje i velike sobe.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

1.189,00 € ~~1.399,00 €~~ Akcija

Bluetooth slušalice s do 24 sata trajanja baterije.

Akcija

MARLEY Positive Vibration XL

Bluetooth® 5.0 - Battery life: 32 Hours with ANC off / 26 Hours with ANC on - 40mm Hi Definition Drivers - USB-C Quick Charge 15 minute charge = 2 hours of playtime - Ultra Comfort foam ear cushions - Onboard Mic & Remote Functionality

69,98 € ~~99,00 €~~ Akcija

Aktivni zvučnik s Bluetooth aptX i NFC povezivanjem.

Akcija

WHARFEDALE DS1

100 mm bas i 20 mm visokotonac, pojačanje 7W RMS / 14W max, frekvencijski odziv 55Hz–20kHz (±3dB), osjetljivost linijskog ulaza 350mV, kontrole za glasnoću, izvor i uparivanje, 3,5 mm ulaz.

175,00 € ~~232,26 €~~ Akcija

StreamMagic Gen4 modul za steaming.

CAMBRIDGE AUDIO CXN 100

DAC ESS ES9028Q2M, podrška za PCM do 32-bit/768kHz i DSD do x512, Bluetooth 5.1, AirPlay 2, Chromecast, Roon Ready, XLR/RCA izlazi, Wi-Fi/Ethernet, potrošnja 30W, dimenzije 430 x 85 x 305 mm.

1.089,00 € Kupi

DTS Play-Fi® tehnologija.

AUDIOLAB 7000N Play

Bežični streamer s ESS ES9038Q2M DAC-om, 2.8" IPS zaslon, DTS Play-Fi, AirPlay 2, podrška za TIDAL, Qobuz, Spotify, multi-room, koaksijalni i optički izlazi, RCA, 192kHz/24-bit, THD <0.0005%, S/N >115dB, 12V trigger, LAN, dimenzije 444 x 340 x 78 mm, masa 5 kg

689,00 € Kupi

Snažno integrirano pojačalo s DAC-om.

WiiM Vibelink Amp

Klasa-D pojačalo s PFFB tehnologijom, 200W/4Ω, 100W/8Ω, DAC ESS9039Q2M, THD+N ≤0.0005%, SNR ≥120dB, frekvencijski raspon 20Hz–20kHz (±0.5dB), analogni RCA ulaz bez ADC-a, optički i koaksijalni digitalni ulazi (192kHz/24-bit), pozlaćeni zvučnički priključci, 12V trigger, auto-standby

369,00 € Kupi

KEF LSX II