Inženjering upita za multimediju (slike, video, glazba) - Kreativnost potiče kreativnost
Oblikovanje upita za generiranje slika, videozapisa, pa i glazbe, ponešto se ipak razlikuje od klasičnog upita univerzalnim AI alatima kao što su ChatGPT, Copilot, Gemini ili Claude. Naime, tu je cilj odmah jasan, što znači da se fokus prebacuje sa strukturiranja samog cilja na što detaljniji opis onoga što se želi kreirati, uz nekoliko dodatnih izazova…
Korištenje umjetne inteligencije za generiranje vizualne umjetnosti (slike i video), kao i glazbe, posljednjih se godina prilično povećalo, a jednako tako ubrzao se i razvoj. Štoviše, nekada tek eksperimentalni modeli kojima su se nerijetko izrugivali zbog očiglednih pogrešaka, polagano su se pretvorili u iznenađujuće sposobne kreativne alate, koji mijenjaju način na koji stvaramo i razmišljamo o samom digitalnom sadržaju. Naravno, izazova ima mnogo, i do pune profesionalne uporabe proći će još neko vrijeme, no već danas alati i rješenja kao što su Midjourney ili Stable Diffusion za generiranje slika, Veo ili Sora za stvaranje videozapisa, te Suno ili Udio za generiranje glazbe, nude prilično impresivne mogućnosti. Međutim, kada ih se promatra u kontekstu inženjeringa upita, stvari se počinju prilično razlikovati u odnosu na oblikovanje upita za stvaranje tekstualnog sadržaja. Gledamo li na to sa stajališta difuzijskih modela, odmah počinje biti jasno zašto je tome tako.