ChatGPT sada "razmišlja" pri izradi slika i generira točan tekst na njima
OpenAI je lansirao alat ChatGPT Images 2.0, sustav koji integrira "razmišljanje" u generiranje slika, omogućujući precizno ispisivanje teksta, web pretragu u stvarnom vremenu i vizualni kontinuitet
Kratkim live streamom na društvenim mrežama ovoga utorka OpenAI službeno je predstavio ChatGPT Images 2.0, značajnu nadogradnju svojeg alata za generiranje slika, koji pokreće novi multimodalni model gpt-image-2. Za razliku od prethodnih verzija iz serije DALL-E, koje su funkcionirale kao zasebni alati unutar sučelja, novi je model integriran kao temeljni sustav sposoban istodobno obrađivati tekstualne i vizualne informacije. Ta promjena omogućuje mu dublje razumijevanje uputa i fizičkih zakonitosti svijeta, poput osvjetljenja i tekstura materijala, pri izradi ilustracija.
Tipografija i kontinuitet
Ključna inovacija je uvođenje takozvanih "sposobnosti razmišljanja". Kada korisnik odabere napredne modele (Thinking ili Pro), novi sustav prije same sinteze piksela provodi planiranje, rezoniranje o strukturi scene, pa čak i pretražuje Internet u stvarnom vremenu. To osigurava da generirani sadržaj bude usklađen s aktualnim informacijama, brendovima ili specifičnim vizualnim referencama koje su se pojavile nakon prosinca 2025. godine, kada je dovršen trening samog modela.
Jedan od najvećih tehnoloških iskoraka u verziji 2.0 jest gotovo savršeno ispisivanje teksta unutar slika. Problem nečitljivih ili besmislenih slova, koji je dugo pratio AI generatore, ovdje bi trebao biti u potpunosti riješen optimiziranim sustavom dekodiranja.
On omogućuje precizno ispisivanje teksta na desetak jezika, uključujući latinična pisma te kompleksne sustave poput kineskog, japanskog i korejskog. Model sada također može kreirati infografike, plakate, jelovnike, stripove i sučelja digitalnih aplikacija s jasno čitljivim i smislenim tekstom. Osim tekstualne preciznosti, ChatGPT Images 2.0 donosi mogućnost generiranja do osam usklađenih slika iz samo jednog upita, održavajući pritom dosljednost likova i objekata kroz cijelu seriju. To se ističe kao posebno korisno za izradu storyboarda, marketinških kampanja ili stripova.
U pogledu sigurnosti, OpenAI je implementirao višeslojni zaštitni sustav koji uključuje aktivno praćenje ulaznih i izlaznih podataka. Novi algoritmi blokiraju pokušaje stvaranja uvjerljivih "deepfake" sadržaja, seksualno eksplicitnih materijala ili osjetljivih prikaza stvarnih osoba i lokacija. Svi generirani vizualni sadržaji sadrže digitalne vodene žigove u skladu s industrijskim standardima, čime se osigurava transparentnost njegovog podrijetla.
DALL-E odlazi u povijest
ChatGPT Images 2.0 dostupan je od 21. travnja svim korisnicima, uključujući i besplatnu razinu, dok su napredne funkcije razmišljanja i planiranja rezervirane za pretplatnike planova Plus, Pro i Business. Sustav podržava širok raspon omjera stranica kod generiranih slika, od panoramskih 3:1 do portretnih 1:3, uz maksimalnu rezoluciju koja putem API sučelja doseže 4K.
Istodobno s lansiranjem nove platforme, OpenAI je najavio i gašenje starijih DALL-E modela (generacije 2 i 3), koji će biti povučeni iz upotrebe 12. svibnja, čime se gpt-image-2 postavlja kao primarni standard za generiranje slika na ChatGPT-u.
