Netflixovi stručnjaci predstavili AI model koji omogućuje "pametno" brisanje objekata iz kadra
Model VOID, za razliku od dosadašnjih metoda, ne uklanja samo vizualne elemente iz videa, već i korigira fizičke interakcije preostalih objekata u sceni te prilagođava okolinu novoj situaciji
Do sada viđene "pametne" AI metode uklanjanja objekata iz videozapisa uspješno su rješavale vizualne nedostatke i korigirale detalje poput sjena i odraza, no redovito su zakazivale u situacijama složenih fizičkih interakcija. Kada bi se iz scene uklonio objekt koji je bio u interakciji s drugim predmetima, rezultati su često bili fizički i logički nevjerodostojni. Kako bi riješili taj problem, stručnjaci iz Netflixa razvili su VOID (Video Object and Interaction Deletion), AI model dizajniran za stvaranje fizički uvjerljivih videozapisa nakon intervencije.
Analiza uzroka i posljedica
VOID se temelji na naprednom modelu koji koristi vizualno-jezičnu inteligenciju za prepoznavanje uzročno-posljedičnih veza u sceni. Sustav, dakle, ne briše iz kadra samo odabrani predmet, već analizira kako bi se ostatak okoline trebao ponašati u njegovoj odsutnosti. Na taj se način izbjegavaju nerealni prikazi u kojima predmeti lebde ili se kreću putanjama koje više nemaju logično uporište u prikazanom prostoru.
Proces započinje korisničkim odabirom objekta za uklanjanje, nakon čega sustav identificira regije scene koje su pod utjecajem tog objekta, poput predmeta koji bi trebali pasti ili promijeniti putanju. Primjerice, ako se ukloni noga stola, model zaključuje da bi stol morao pasti.
Ti se podaci potom koriste kako bi se usmjerio rad difuzijskog modela za generiranje videozapisa. U prvom prolazu sustav generira fizikalno vjerodostojan ishod, dok (opcionalni) drugi prolaz služi za stabilizaciju oblika objekata i sprječavanje vizualnih artefakata tijekom novonastalih putanja kretanja. Umjesto da samo "retušira" sliku, VOID koristi difuzijski model za generiranje potpuno novih pokreta i putanja za objekte koji su ostali u kadru, a koji su bili u interakciji s uklonjenim predmetom.
Fizički logični rezultati
Za obuku modela korišten je novi skup podataka koji sadrži parove videozapisa s uklonjenim i neuklonjenom objektima. Na temelju toga model je "naučio" kako promjena jednog elementa utječe na njegove posljedične fizičke interakcije. Testiranja provedena na sintetičkim i stvarnim podacima pokazala su da VOID znatno bolje čuva dosljednu dinamiku scene u usporedbi s prethodnim metodama.
Ovaj pristup rješava, dakle, jedan od najvećih problema današnjih AI video modela – fizičku nevjerodostojnost rezultata te omogućava umjetnoj inteligenciji da razvije svojevrsno razumijevanje zakona fizike, poput gravitacije, inercije i sudara, umjesto da samo kopira vizualne uzorke.
Model je dostupan na GitHubu, može ga se koristiti putem platforme Hugging Face, a o svemu je objavljen i znanstveni rad postavljen na servis arXiv.