Sora – generativni AI video postao je dobar kao slike ili tekst

OpenAI je predstavio svoj difuzijski model za stvaranje kratkih video isječaka na temelju tekstualnog prompta. Rezultati su fascinantno realistični, a model još uvijek nije dostupan javnosti

Sandro Vrbanus petak, 16. veljače 2024. u 15:38

Nakon ChatGPT-a za stvaranje tekstova, koje je sve teže razlikovati od ljudskih, pa alata DALL-E za generiranje ilustracija, OpenAI je sada predstavio i model Sora – namijenjen generiranju realističnih video isječaka. Nisu oni prvi koji u javnost izlaze s rezultatima difuzijskog modela za pretvaranje teksta u video, ali su, barem prema prikazanome, izradili najbolji model dosad viđen. To su postigli tehnikama koje stoje u pozadini ove umjetne inteligencije i surađuju kako bi stvorile realistične snimke, gotovo istovjetne onima kakve bi nastale videokamerom.

Iz teksta u video

Osim što je riječ o difuzijskom modelu, koji stvara slike iz nasumičnog šuma pa ih kroz milijune iteracija prilagođava željenom rezultatu, u ovaj model ugrađeni su i drugi dodaci. Prvo, tu je sustav dubokog razumijevanja teksta i interpretacije promptova, što mu omogućava stvaranje kompleksnih scena, likova, kao i zadržavanje stila i scene čak i u slučajevima kada se unutar videa mijenja kadar.

Nadalje, Sora ne samo da razumije što je u tekstualnom zadatku bitno, već je u stanju odvojiti glavni subjekt videa od pozadine, pa generirati oboje uz visoku razinu detalja. Interakcija među objektima na videu, pak, rezultat je ugrađenog fizikalnog modela, koji simulira uvjete u stvarnom svijetu.

Trenutačno Sora može stvarati video isječke u trajanju do jedne minute, a pristup joj imaju tek OpenAI-jevi testeri i nekolicina kreativaca. I sami kažu da je riječ o modelu još uvijek u razvoju, koji ima svojih nedostataka. Primjerice – nekada nije konzistentan u stvaranju kompleksnih scena i "ne razumije" uzrok i posljedicu. Osoba na videu tako može odgristi komad kolačića, a da nakon toga kolačić naizgled bude netaknut. Bez obzira na to sve, OpenAI je na svojim stranicama objavio niz "sirovih" isječaka, stvorenih modelom Sora, kako bi prikazali do koje razine je već sada on napredovao u stvaranju realističnih videa.

Model će polako biti puštan u javnost, uz sva moguća sigurnosna ograničenja. Nemoguće je, kažu autori Sore, predvidjeti sve načine na koje bi ovakav alat mogao pomoći, ali i odmoći čovječanstvu. Mnogo toga naučit će se kroz njegovo korištenje u stvarnim uvjetima, pa će na temelju naučenoga nastajati i sigurnosne odrednice Sore. Istodobno će od umjetnika, filmaša i dizajnera organizacija prikupljati povratne informacije o tome kako dalje razvijati model, da bi on postao što korisniji.

(Svi isječci unutar ovog teksta su dijelom OpenAI-jevog demo prikaza rada Sore i nastali su isključivo iz tekstualnih promptova, a prikazani su bez modifikacija).