ChatGPT-5 halucinira manje od GPT-a 4o, no Grok i dalje najviše izmišlja
Novi testovi platforme Vectara pokazuju da ChatGPT-5 ima nižu stopu halucinacija od GPT-4, no razlika u odnosu na GPT-4o je minimalna. U međuvremenu, Grok i dalje drži neslavni rekord u izmišljanju informacija

Kada je OpenAI prošlog tjedna lansirao ChatGPT-5, izvršni direktor Sam Altman naglasio je kako se radi o "najmoćnijoj, najpametnijoj i najpouzdanijoj" verziji do sada, s posebnim naglaskom na smanjenje "halucinacija". No, kako navodi TechRadar, neovisni testovi pokazuju da, iako napredak postoji, priča je nešto kompleksnija.
AI halucinacija, odnosno pojava u kojoj jezični model izmišlja informacije, i dalje je jedan od glavnih razloga zašto je ljudski nadzor pri korištenju umjetne inteligencije nužan. Platforma Vectara, koja vodi ljestvicu za praćenje halucinacija (HHEM), stavila je OpenAI-jeve tvrdnje na test. Rezultati su pokazali da ChatGPT-5 zaista ima nižu stopu halucinacija od modela GPT-4, ali je tek neznatno bolji od popularnog GPT-4o.
Prema njihovim podacima, ChatGPT-5 ima stopu halucinacija od 1,4%, u usporedbi s 1,8% kod modela GPT-4. Njegov prethodnik, GPT-4o, bilježi stopu od 1,49%, što znači da je novi model bolji za samo 0,09%. Zanimljivo je da je verzija ChatGPT-4.5 Preview, koja je bila dostupna u ograničenom testiranju, imala još nižu stopu od 1,2%, dok je najbolji OpenAI-jev model po ovom pitanju i dalje o3-mini High Reasoning sa samo 0,795% halucinacija.
U usporedbi s konkurencijom, ChatGPT-5 i dalje stoji vrlo dobro. Googleov Gemini-2.5-pro ima stopu halucinacija od 2,6%, dok je Grok-4, model tvrtke xAI, daleko najnepouzdaniji s čak 4,8% izmišljenih odgovora. Tvrtka xAI nedavno se našla na udaru kritika i zbog svoje "Spicy" opcije u alatu Grok Imagine, koji je generirao lažne "deepfake" videozapise golih poznatih osoba, unatoč tome što sustav navodno ima filtere protiv takvog sadržaja.
Lansiranje novog modela nije prošlo bez kontroverzi. OpenAI se suočio s negativnim reakcijama korisnika nakon što je bez najave uklonio pristup svim varijantama GPT-4 modela iz svojih Plus pretplata. Mnogi su na Redditu izrazili nezadovoljstvo, a neki su komentirali kako su "preko noći izgubili jedinog prijatelja", aludirajući na pouzdanost i navike koje su stekli s GPT-4o.
Čini se da je OpenAI, u žurbi za lansiranjem najnovije tehnologije, podcijenio koliko korisnici cijene pouzdanost i specifične karakteristike starijih modela. Altman je ubrzo na društvenoj mreži X priznao pogrešku i obećao privremeni povratak GPT-4o modela za Plus korisnike, dodavši kako će "pratiti korištenje i na temelju toga odlučiti koliko dugo će nuditi naslijeđene modele".