Matrix3D - video iz tri fotografije
Model za strojno učenje sposoban je rekonstruirati 3D objekte i scene koristeći samo nekoliko 2D fotografija, što predstavlja značajnu razliku u odnosu na postojeće metode

Appleov tim za strojno učenje, u suradnji s istraživačima sa Sveučilišta Nanjing i Tehničkog sveučilišta u Hong Kongu, predstavio je AI model za 3D nazvan Matrix3D. Ovaj model, opisan kao veliki fotogrametrijski model, sposoban je rekonstruirati 3D objekte i scene koristeći samo nekoliko 2D fotografija – minimalno dvije.
Fotogrametrija je tehnika koja koristi fotografije za mjerenja s ciljem izrade 3D modela ili mapa. Trenutni procesi uključuju korištenje različitih modela za korake poput procjene položaja i predviđanja dubine, što može dovesti do neefikasnosti i pogrešaka.
Matrix3D pojednostavljuje ovaj proces objedinjavanjem svih koraka. Model prima slike, parametre kamere (kao što su kut i žarišna duljina) te podatke o dubini, obrađujući ih unutar jedinstvene arhitekture.
Za treniranje modela korištena je strategija maskiranog učenja, slična onoj kod ranih transformerskih neuronskih sustava koji su utrli put prvim verzijama ChatGPT-a. Tijekom procesa treniranja, nasumično su skrivali dijelove ulaznih podataka, prisiljavajući model da nauči popunjavati praznine. Ova tehnika je ključna jer omogućuje modelu učinkovito treniranje čak i s manjim ili nepotpunim skupovima podataka.
Rezultati pokazuju da Matrix3D, sa samo tri ulazne slike, može generirati detaljne 3D rekonstrukcije objekata, pa čak i cijelih okruženja.
Izvorni kod za Matrix3D dostupan je na GitHubu, a znanstveni rad objavljen je na arXivu. Istraživači su također izradili web stranicu na kojoj se mogu pogledati primjeri videozapisa i interaktivno istražiti nekoliko rekonstrukcija objekata i okruženja u obliku oblaka točaka.