Umjetna inteligencija

Neuronske mreže u filmskoj industriji: repliciranje mladosti i starosti, kloniranje glasa i stasa

Igor Berecki subota, 3. prosinca 2022. u 09:50

Činjenica da će u ratu stvoreni ukrajinski softver omogućiti svijetlu budućnost sinkronizacije Darth Vaderovog glasa u budućim nastavcima franšize je podatak koji će zadovoljiti i najveće hard-core fanove Star Warsa

Ništa me ne podsjeća na to koliko sam star kao podatak o tome kada su snimljeni neki od filmova za koje i dalje mislim da su se pojavili prije samo par godina: prvi dio trilogije Gospodara prstenova, Prstenova družina i prvi film iz serijala o Harryju Potteru snimljeni su prije 21 godinu; Matrix se pojavio još dvije godine ranije, 1999.; prvi Top Gun je snimljen još 1986., a prvi Blade Runnerwait for it…! – prije četrdeset godina, daleke 1982.  No, vrhunac osjećaja težine pretpovijesti koja mi leži na staračkim ramenima je podatak da je prvi dio Lucasfilmove franšize Star Wars, retroaktivno nazvan Epizoda IV – Nova nada (Epizode IV – A New Hope) snimljen još 1977., prije punih 45 godina! <zapanjeni emoticon>

Dokaz koliko je to bilo davno jest činjenica da legendarni James Earl Jones, koji od prvoga filma davne 1977. pa sve do dijaloga u Usponu Skywalkera (2019.) posuđuje svoj glas kultnom zlikovcu Darthu Waderu, danas ima 91 godinu. Kada je nedavno spomenuo kako razmišlja o „odlasku u glasovnu mirovinu“, stavio je zahtjevan zadatak pred ekipu montažera zvuka u Lucasfilmsu: kako pronaći dostojnu zamjenu za Waderov glas, jedan od najprepoznatljivijih audio-brendova u filmskoj industriji?

Polustoljetno podmlađivanje

Odgovor je bio Respeecher (www.respeecher.com), proizvod istoimene ukrajinske tvrtke koja koristi računalne neuronske mreže i algoritme dubokog učenja za modeliranje i sintetiziranje ljudskog glasa, s rezultatima koji se praktički ne razlikuju od originalnih glasova koje repliciraju. Lucasfilm je Respeechera prvi puta koristio 2021. godine, tada već kao dio kompanije Walt Disney, i to za kloniranje glasa glumca Marka Hamilla u franšiznoj spin-off seriji The Mandalorian; u seriji je osim glasa mladoga Lukea Skywalkera računalno bio generiran i njegov lik korištenjem tehnike softverskog „podmlađivanja“ Hamillovog lica.

70-godišnji Mark Hamill kao 30-godišnji Luke Skywalker: de-age tehnologija u drugoj sezoni The Mandaloriana
70-godišnji Mark Hamill kao 30-godišnji Luke Skywalker: de-age tehnologija u drugoj sezoni The Mandaloriana

Tijekom snimanja i produkcije The Mandaloriana, Rusija je započela invaziju na Ukrajinu, što je pred programerski tim Respeechera postavilo brojne organizacijske izazove, koje su ipak besprijekorno uspjeli razriješiti na obostrano zadovoljstvo – kako njihovo, tako i Lucasfilm/Disneyjevo. Uspješna suradnja s Ukrajincima potakla je ideju da bi ista synth-voice tehnologija bila idealno rješenje i za buduće pojavljivanje Dartha Vadera u filmovima i serijama Star Wars franšize.

Otkupljivanjem licence za korištenje Respeechera, Lucasfilms i majka-tvrtka Walt Disney Studio riješili su prijeteći problem umirovljenja Vaderovog glasa, što je i zaključno potvrđeno prije par mjeseci, kada je James Earl Jones potpisao službeno dopuštenje Disneyju da u budućim projektima replicira njegovu vokalnu izvedbu Darth Vadera korištenjem Respeechera. Koristeći Lucasfilmovu audio-arhivu sa snimkama Jonesovog/Vaderovog glasa, programeri iz Respeechera su kreirali algoritam koji je sposoban „on the fly“ sintetizirati Vaderov glas dok bilo koji drugi glumac izgovara njegove replike tijekom postprodukcijske sinkronizacije snimljenog filmskog materijala.

Unatoč ratu koji i dalje traje, ukrajinski Respeecher nastavlja rad na drugim – za sada još tajnim – projektima (vjerojatno i dalje ekskluzivno za Disney), pa u budućnosti možemo očekivati još sličnih „kloniranja“ glasova omiljenih likova iz filmova i serija.

Sintetski glas za Icemana

Samo nekoliko mjeseci nakon Respeecherovog kloniranja Hamillovog glasa za oživljavanje mlade verzije Lukea Slywalkera u The Mandalorianu, svjedočili smo još jedom uspješnom softverskom rješavanju problema sinteze glumačkog glasa u filmu Top Gun 2: Maverick, u kojemu se za scenu ponovnog susreta dvojice legendarnih letača Mavericka (Tom Cruise) i Icemana (Val Kilmer) pojavila potreba kreiranja Kilmerovog glasa koji je 2015. nepovratno izmijenjen nakon operacije karcinoma grla.

Za ulogu Icemana u nastavku Top Guna računalno je rekonstruiran glas Val Kilmera, oboljelog od raka grla
Za ulogu Icemana u nastavku Top Guna računalno je rekonstruiran glas Val Kilmera, oboljelog od raka grla

Ovdje je ulogu „spasitelja glasa“ odigrao američki tehnološki startup Sonantic, koji je punih godinu dana surađivao s Kilmerom kako bi mu za njegov povratak na veliki ekran rekreirao i sintetizirao originalni glas. Kilmer je u tu svrhu Sonanticu ustupio desetke sati arhivskih snimaka iz svojih filmova, ali je na kraju Sonantic za „hranjenje“ svojega glasovnog AI-algoritma mogao upotrijebiti samo nekih pola sata snimke Kilmerovog glasa zbog problema s licencama (eh, što ti je kapitalizam: glumac većinom uopće nema licencu na korištenje vlastitog glasa!).

Naposlijetku je Sonantic pomoću deep-learning algoritama ipak uspio kreirati text-to-speech program koji napisani tekst konvertira u vjerno kloniran Kilmerov glas, a sve to toliko kvalitetno da su sâm Kilmer i njegova obitelj bili fascinirani kvalitetom i vjernošću sintetizirane, restaurirane verzije. Jedan od njegovih suradnika i prijatelja je doživljaj novostvorenog Kilmerovog glasa opisao kao nevjerojatno realističan  „…kao da slušate Alexu ili Siri, samo što je glas prepoznatljivo Kilmerov i sposoban je odražavati promjene u infleksiji, toplini, tonalitetu i dinamici; jednostavno rečeno, Sonanticov programski obnovljen glas sposoban je osim zvuka oponašati i fine nijanse Kilmerovih emocija“.

Računalna starost, računalna mladost

Vratimo se sada na finale druge sezone The Mandaloriana koje kulminira scenom dolaska mladoga Luke Skywalkera, odnosno glumca Marka Hamilla. U dobi od 70 godina, Hamill je zaista odglumio svoj cameo u Mandalorianu, likom i glasom vjerno utjelovljujući četrdesetak godina mlađeg Skywalkera. Kako smo već rekli, kreiranje „mladog“ Skywalkerovog glasa uspješno su obavili Ukrajinci sa svojim Respeecherom, dok je skoro polustoljetno „podmlađivanje“ Hamillovog lica odradio de-aging program Lola Visual Effect 2.5D Process (Lola VFX).

Lola VFX se pobrinula za generiranje starosti i mladosti Kapetana Amerike (Chris Evans) u filmu Avengers: Endgame
Lola VFX se pobrinula za generiranje starosti i mladosti Kapetana Amerike (Chris Evans) u filmu Avengers: Endgame

U svojoj osnovi deepfake-softver upogonjen umjetnom inteligencijom na neuralnim mrežama, Lola VFX se uspješno dokazao kao odličan izbor za umjetno „podmlađivanje“ (de-aging) i „starenje“ (re-aging) glumačkih lica u filmovima čiji sadržaj pokriva više desetljeća radnje. U svojem filmskom portfelju Lola VFX ima filmove kao što su Captain Marvel (podmlađeni Samuel L. Jackson i Chris Evans), Righteous Gemstones (podmlađivanje Johna Goodmana) ili Avengers: Endgame, u  kojima je Lola VFX „obradila“ Chris Evansa u širokom rasponu od adolescentnog do metuzalemski ostarjelog Kapetana Amerike.No, premda zadovoljavajuće učinkovita u svojoj namjeni, Lola VFX ipak nije bez mane: hardverski je zahtjevna ne samo u računalnom smislu, već i zbog potrebe za korištenjem skupih specijalnih kamera koje 3D-mapiraju lice glumaca za kasniju kompjutorsku obradu snimljenog materijala, a proces obrade je dugotrajan, što naposlijetku rezultira prilično visokim troškovima produkcije.

Osim tradicionalnim metodama – šminkom ili izradom odljevaka silikonskih maski – stručnjaci za specijalne efekte u video ili filmskoj produkciji pokušavaju lice glumca učiniti starijim ili mlađim korištenjem jedne od dvije „klasične“ računalne tehnike: ili 3D-skeniranjem/mapiranjem glumca nakon kojega slijedi računalni proces 3D-modeliranja „novoga“ lica (nešto kao facijalni CAD/CAM)  ili 2D-procesom digitalnog retuširanja lica glumca frame-by-frame metodom (pomoću grafičkih alata nalik Photoshopu). Ovi produkcijski postupci mogu trajati tjednima ili mjesecima, ovisno o količini kadrova i frameova koje je potrebno obraditi.

FRAN - promjena životne dobi u realnom vremenu

U potrazi za boljim rješenjima, stručnjaci iz Disneyevih studija za specijalne efekte su u zadnjih godinu dana kreirali i usavršili inovativne umjetno inteligentne računalne neuronske mreže specifično namijenjene za zahtjevno procesuiranje grafike, kao i deep machine learning softver sposoban vrlo vjerno izmijeniti vizualnu dob glumaca automatiziranim procesom koji je znatno jeftiniji i učinkovitiji od prethodnih. Tu inovativnu AI-tehnologiju, nazvanu Face Re-aging Network (FRAN), u Disneyu nazivaju „prvom praktično primjenjivom, potpuno automatskom metodom za kreiranje izmijenjene dobi lica u produkciji video-zapisa“.

Isti isječak iz videozapisa 35-godišnje osobe (sredina) koju je FRAN transponirao 15 godina unazad (lijevo) i isto toliko u smjeru starosti (desno), a sve u realnom vremenu, tijekom snimanja filma
Isti isječak iz videozapisa 35-godišnje osobe (sredina) koju je FRAN transponirao 15 godina unazad (lijevo) i isto toliko u smjeru starosti (desno), a sve u realnom vremenu, tijekom snimanja filma

U postupku dizajniranja FRAN-a korišten je Nvidijin softver StyleGAN2, programski uradak specifično namijenjen „treniranju“ računalnih neuralnih mreža za randomizirano generiranje slika visoke rezolucije. Pomoću StyleGAN-a nasumično je generirano na desetke tisuća ljudskih lica u dobi između 18 i 85 godina, čime je elegantno izbjegnuta potreba za mukotrpnim poslom prikupljanja enormnog broja fotografija koje „…prikazuju žive ljude raznih identiteta, životne dobi i etničke pripadnosti s različitim izrazima raspoloženja, u različitim vrstama osvjetljenja“.

Tim podacima „nahranjen“ je deep learning algoritam FRAN-a, koji je tako „naučio“ opća načela o tome kako se izgled ljudskog lica mijenja s godinama. Nakon završenog „treninga“, FRAN je bio sposoban primijeniti ta načela starenja na lice živoga glumca u pokretu, kroz potpuni dijapazon glumčeve facijalne mimike i izraza, i to u stvarnom vremenu, kadar po kadar, u svim uvjetima snimanja. Rezultat je ono što u Disneyju nazivaju „instantnim rješenjem spremnim za produkciju“, što znači da u realnom vremenu generira digitalni filmski ispis dovoljno visoke rezolucije i kvalitete da se bez znatnijih postprodukcijskih zahvata može koristiti u filmu ili TV-emisiji.

Renoviranje zastarjelih specijalnih efekata

FRAN je prvo AI rješenje te vrste koje je osposobljeno dinamički promijeniti dob glumca na videu unatoč promjenjivim izrazima lica, uvjetima osvjetljenja i kutovima snimanja. Autori su razvili i korisničko sučelje za FRAN koje će video-umjetnicima omogućiti jednostavnu upotrebu tog alata u produkcijskom okruženju.

FRAN - program koji je samoga sebe naučio kako od randomizirano generiranih lica (lijevo) načiniti optimizirane obrasce (sredina) i potom od njih sintetizirati različite stupnjeve starenja (desno)
FRAN - program koji je samoga sebe naučio kako od randomizirano generiranih lica (lijevo) načiniti optimizirane obrasce (sredina) i potom od njih sintetizirati različite stupnjeve starenja (desno)

Disney je prije par dana i službeno predstavio FRAN objavljivanjem rada pod naslovom „Production-Ready Face Re-Aging for Visual Effects i prijavio ga na konferenciju ACM SIGGRAPH Asia u prosincu 2022., gdje će se dogoditi i svjetska premijera prezentacije ovog inovativnog CGI-sustava. Autori rada su Gaspard Zoss, Prashanth Chandran, Eftychios Sifakis, Markus Gross, Paulo Gotardo i Derek Bradley, svi povezani s istraživačkim video-laboratorijem Disney Research Studios u Zürichu, Švicarska.

Premda Disney Studios još nije najavio ima li planove za buduće korištenje kombinacije FRAN-a i Respeechera za računalnu rekonstrukciju likova i glasova poznatih (ali ostarjelih ili čak pokojnih) glumaca u svojim nadolazećim filmovima, ili za računalno „moderniziranje“ nekih od svojih starih filmova u kojima su korištene ondašnje, danas već prilično naivne i smiješne tehnologije izrade specijalnih efekata. No, uzimajući u obzir bogatu Disneyjevu povijest ubacivanja računalno generiranih glumaca u filmove i TV emisije, ne bismo se iznenadili da vidimo FRAN i čujemo Respeecher tehnologiju u budućim Disneyevim produkcijama.