Vidu: kineski odgovor na OpenAI Soru

Shengshu Technology je svoj generator teksta u video izradio u suradnji sa Sveučilištem Tsinghua

Mladen Smrekar srijeda, 1. svibnja 2024. u 15:09
Demo isječci koje je objavio kineski AI startup Shengshu Technology prikazuju videozapise koje je izradio Vidu, alat za pretvaranje teksta u video 📷 Shengshu Technology
Demo isječci koje je objavio kineski AI startup Shengshu Technology prikazuju videozapise koje je izradio Vidu, alat za pretvaranje teksta u video Shengshu Technology

Kineski startup Shengshu Technology i tamošnje Sveučilište Tsinghua predstavili su Vidu, kineski odgovor na OpenAI Soru. Aplikacija za pretvaranje teksta u video uz pomoć umjetne inteligencije može jednim klikom generirati isječke od 16 sekundi u razlučivosti od 1080p. To je zasad puno kraće od Sorinih 60-sekundnih video mogućnosti, ali i trenutno najbolje što Kinezi mogu ponuditi i naznaka velikih stvari koji će uslijediti. 

Simulacije fizičkog svijeta

"Vidu je maštovit, može simulirati fizički svijet i proizvodi videozapise od 16 sekundi s dosljednim likovima, scenama i vremenskom crtom", pohvalili su se tvorci novog softvera za pretvaranje teksta u video na Zhongguancun forumu u Pekingu, održanom ovaj vikend. 

Vidu razumije elemente kineskog pisma, izvijestio je South China Morning Post, a tijekom predstavljanja modela Shengshu Technology je prikazao nekoliko demonstracija, uključujući pandu koja svira gitaru na travi i psića koji pliva u bazenu.

Nova arhitektura

Vidu je navodno izgrađen na novoj arhitekturi modela vizualne transformacije Universal Vision Transformer (U-ViT) koji integrira dva AI modela teksta u video: Diffusion i Transformer. Ova arhitektura, kažu, omogućuje realistične videozapise s dinamičnim pokretima kamere, detaljnim izrazima lica te prirodnim osvjetljenjem i sjenama.

Psić koji pliva u bazenu jedan je od isječaka iz videa kojim je u Pekingu predstavljen Vidu 📷 Shengshu Technology
Psić koji pliva u bazenu jedan je od isječaka iz videa kojim je u Pekingu predstavljen Vidu Shengshu Technology

Pekinški Shengshu Technology osnovan je u ožujku 2023. i u njemu su zaposleni uglavnom članovi Instituta za umjetnu inteligenciju, Alibabe, Tencenta i ByteDancea. Tvrtka je prošli mjesec prikupila stotine milijuna juana od raznih ulagača, uključujući Qiming Ventures, Zhipu AI i Baidu Ventures.