Vidu: kineski odgovor na OpenAI Soru
Shengshu Technology je svoj generator teksta u video izradio u suradnji sa Sveučilištem Tsinghua
Kineski startup Shengshu Technology i tamošnje Sveučilište Tsinghua predstavili su Vidu, kineski odgovor na OpenAI Soru. Aplikacija za pretvaranje teksta u video uz pomoć umjetne inteligencije može jednim klikom generirati isječke od 16 sekundi u razlučivosti od 1080p. To je zasad puno kraće od Sorinih 60-sekundnih video mogućnosti, ali i trenutno najbolje što Kinezi mogu ponuditi i naznaka velikih stvari koji će uslijediti.
Simulacije fizičkog svijeta
"Vidu je maštovit, može simulirati fizički svijet i proizvodi videozapise od 16 sekundi s dosljednim likovima, scenama i vremenskom crtom", pohvalili su se tvorci novog softvera za pretvaranje teksta u video na Zhongguancun forumu u Pekingu, održanom ovaj vikend.
Vidu razumije elemente kineskog pisma, izvijestio je South China Morning Post, a tijekom predstavljanja modela Shengshu Technology je prikazao nekoliko demonstracija, uključujući pandu koja svira gitaru na travi i psića koji pliva u bazenu.
Nova arhitektura
Vidu je navodno izgrađen na novoj arhitekturi modela vizualne transformacije Universal Vision Transformer (U-ViT) koji integrira dva AI modela teksta u video: Diffusion i Transformer. Ova arhitektura, kažu, omogućuje realistične videozapise s dinamičnim pokretima kamere, detaljnim izrazima lica te prirodnim osvjetljenjem i sjenama.
Pekinški Shengshu Technology osnovan je u ožujku 2023. i u njemu su zaposleni uglavnom članovi Instituta za umjetnu inteligenciju, Alibabe, Tencenta i ByteDancea. Tvrtka je prošli mjesec prikupila stotine milijuna juana od raznih ulagača, uključujući Qiming Ventures, Zhipu AI i Baidu Ventures.