DeepMind može stvoriti 30 sekundi videa iz jedne fotografije

Poznati sustav umjetne inteligencije dobio je novu primjenu, modeliranje nepostojećih kadrova iz samo jedne osnovne fotografije, čime predviđa okolinu i stvara vlastiti kratki video isječak

Sandro Vrbanus subota, 20. kolovoza 2022. u 12:50

Alphabetov DeepMind, sustav umjetne inteligencije poznat po igranju šaha i goa, previđanju strukture proteina i sličnim primjenama, sada je dobio novu zadaću – stvoriti kratke video isječke na temelju jednog jedinog kadra. Unaprijeđeni sustav Transframer postao je neuronska mreža za modeliranje novih, ranije nepostojećih kadrova, na temelju samo jednog kadra ili fotografije scene.

Napredno prepoznavanje sadržaja slika

Za to se koristi sustavom probabilističkog predviđanja, segmentacije i analize slike, kao i sustavom za sintezu i interpolaciju videa. Ono što je trenutačno u stanju učiniti, jest uzeti jednu fotografiju te na temelju nje izraditi cijelu scenu, predvidjeti kamo i kako bi se predmeti na njoj mogli kretati, pa u konačnici izraditi i do 30 sekundi smislenog videa. Sve to, kažu autori Transframera, on čini bez podataka o geometriji zadane scene.

Sustav kao takav možda i neće biti koristan u širokoj i općoj primjeni, ali bi se njegovi dijelovi mogli vrlo dobro upotrijebiti, napominju iz DeepMinda. Neke od potencijalnih primjena vide u širenju mogućnosti računalnog vida s dodatkom predviđanja, naprednom prepoznavanju objekata, učenju iz njih te za širok niz alata koji zahtijevaju učenje uvjetne strukture podataka na temelju slika.