Multimodalni GPT-4 je na pomolu, radit će s tekstom, slikama, videom i glazbom

Još napredniji sustav umjetne inteligencije iz radionice Microsofta i OpenAI-ja, mogao bi biti predstavljen javnosti već sljedećeg tjedna. Osim prirodnog jezika, baratat će i slikama i videom

Sandro Vrbanus subota, 11. ožujka 2023. u 20:10

ChatGPT je i dalje najtraženiji sustav umjetne inteligencije i aplikacija koja privlači sve više korisnika, no u pozadini se sprema nešto novo. OpenAI i Microsoft nastavili su razvoj jezičnog modela GPT-3, potom GPT-3.5 koji je trenutačno aktualan, a već sljedećega tjedna javnost bi mogla dobiti prvi pogled na sljedeću iteraciju, GPT-4. Najavljeno je to, doduše neslužbeno, na njemačkoj konferenciji "AI in Focus - Digital Kickoff", gdje je tu činjenicu usput spomenuo Andreas Braun, tehnički direktor Microsofta za Njemačku.

Svestrani AI

Prema njegovim riječima, GPT-4 neće biti samo nadogradnja jezičnog modela, već će dobiti i multimodalnost, funkciju koju je Microsoft nedavno demonstrirao u obliku vlastitog sustava Kosmos-1. To znači da će novi AI model uključivati ulazne informacije iz slika, videa, jednako kao i iz teksta, moći će ih spajati i razumijevati kontekst, jednako kao što sada "razumije" upute zadane samo prirodnim jezikom, i to na gotovo svim jezicima svijeta.

Sustav bi mogao raditi i u suprotnom smjeru – umjesto da kao ulaznu informaciju uzima multimedijalne sadržaje, vjerojatno će biti u stanju i proizvoditi slike, video, čak i glazbu, samo na temelju jezičnih "promptova". Te mogućnosti dovele bi do situacije u kojoj javno dostupni AI sustav rješava vizualne testove inteligencije stvorene za ljude, ima mogućnost "čitanja" bilo kojeg multimedijalnog sadržaja i potom korištenja dobivenih informacija u daljnjem procesiranju, u stanju je autonomno prepričati video, razgovarati o njemu i slično.

500 puta moćniji?

Prema neslužbenim informacijama, GPT-4 bit će zasnovan na 500 puta više parametara od modela ChatGPT-a, pa bi se oni mogli brojati u desecima bilijuna. Da se nešto toga tipa "kuha", potvrđuje i ovoga tjedna objavljeni rad, u kojem je opisan "Vizualni ChatGPT",  spoj naprednog chatbota i vizualnih generativnih modela.

Nakon predstavljanja Kosmosa-1, i već poznatih nam mogućnosti sustava DALL-E 2, ne bi bilo neobično da se te tehnologije stope u jednu, pa da pod OpenAI-jem dobijemo jedinstveni, sveobuhvatni i multimodalni sustav generativne umjetne inteligencije.