ChatGPT-5 halucinira manje od GPT-a 4o, no Grok i dalje najviše izmišlja

Novi testovi platforme Vectara pokazuju da ChatGPT-5 ima nižu stopu halucinacija od GPT-4, no razlika u odnosu na GPT-4o je minimalna. U međuvremenu, Grok i dalje drži neslavni rekord u izmišljanju informacija

Bug.hr utorak, 12. kolovoza 2025. u 06:30

Foto: Unsplash

Kada je OpenAI prošlog tjedna lansirao ChatGPT-5, izvršni direktor Sam Altman naglasio je kako se radi o "najmoćnijoj, najpametnijoj i najpouzdanijoj" verziji do sada, s posebnim naglaskom na smanjenje "halucinacija". No, kako navodi TechRadar, neovisni testovi pokazuju da, iako napredak postoji, priča je nešto kompleksnija.

AI halucinacija, odnosno pojava u kojoj jezični model izmišlja informacije, i dalje je jedan od glavnih razloga zašto je ljudski nadzor pri korištenju umjetne inteligencije nužan. Platforma Vectara, koja vodi ljestvicu za praćenje halucinacija (HHEM), stavila je OpenAI-jeve tvrdnje na test. Rezultati su pokazali da ChatGPT-5 zaista ima nižu stopu halucinacija od modela GPT-4, ali je tek neznatno bolji od popularnog GPT-4o.

Prema njihovim podacima, ChatGPT-5 ima stopu halucinacija od 1,4%, u usporedbi s 1,8% kod modela GPT-4. Njegov prethodnik, GPT-4o, bilježi stopu od 1,49%, što znači da je novi model bolji za samo 0,09%. Zanimljivo je da je verzija ChatGPT-4.5 Preview, koja je bila dostupna u ograničenom testiranju, imala još nižu stopu od 1,2%, dok je najbolji OpenAI-jev model po ovom pitanju i dalje o3-mini High Reasoning sa samo 0,795% halucinacija.

U usporedbi s konkurencijom, ChatGPT-5 i dalje stoji vrlo dobro. Googleov Gemini-2.5-pro ima stopu halucinacija od 2,6%, dok je Grok-4, model tvrtke xAI, daleko najnepouzdaniji s čak 4,8% izmišljenih odgovora. Tvrtka xAI nedavno se našla na udaru kritika i zbog svoje "Spicy" opcije u alatu Grok Imagine, koji je generirao lažne "deepfake" videozapise golih poznatih osoba, unatoč tome što sustav navodno ima filtere protiv takvog sadržaja.

Lansiranje novog modela nije prošlo bez kontroverzi. OpenAI se suočio s negativnim reakcijama korisnika nakon što je bez najave uklonio pristup svim varijantama GPT-4 modela iz svojih Plus pretplata. Mnogi su na Redditu izrazili nezadovoljstvo, a neki su komentirali kako su "preko noći izgubili jedinog prijatelja", aludirajući na pouzdanost i navike koje su stekli s GPT-4o.

Čini se da je OpenAI, u žurbi za lansiranjem najnovije tehnologije, podcijenio koliko korisnici cijene pouzdanost i specifične karakteristike starijih modela. Altman je ubrzo na društvenoj mreži X priznao pogrešku i obećao privremeni povratak GPT-4o modela za Plus korisnike, dodavši kako će "pratiti korištenje i na temelju toga odlučiti koliko dugo će nuditi naslijeđene modele".

https://www.bug.hr/dogadjaji/povratak-izgubljenog-prijatelja-nostalgija-za-gpt-4o-nakon-nenajavljenog-52794

Vezano

🔥🎮 Lenovo LOQ 15AHP10 – prijenosnik koji spaja snagu, brzinu i stabilnost za svaki izazov!

+BUNDLE za 1€

Laptop LENOVO LOQ 15AHP10 - 83JG002WSC

Lenovo LOQ 15AHP10 donosi AMD Ryzen 200 Series snagu i NVIDIA RTX 50 GPU za pouzdan gaming u FHD rezoluciji, uz 144Hz IPS zaslon, 60Wh bateriju i napredno hlađenje za stabilne performanse.

1.299,99 € ~~1.399,99 €~~ Kupi

✨💻 Otkrij svestranost IdeaPad 5 2‑in‑1 — elegantni prijenosnik koji se pretvara u tablet i prati tvoj ritam svakog dana!

+BUNDLE za 1€

Laptop LENOVO IdeaPad 5 2-in-1 - 83KU0005SC

IdeaPad 5 2‑in‑1 nudi 16" WUXGA dodirni zaslon, snažne AMD Ryzen AI procesore, 16GB LPDDR5X memorije i 512GB SSD, uz fleksibilni 360° dizajn za rad, kreativnost i zabavu.

999,98 € ~~1.099,99 €~~ Kupi

💻 Praktičan, brz i spreman za svaki zadatak!

-13%

Laptop Lenovo Ideapad 1 - 82VG00V5SC

Lenovo Ideapad 1 s Ryzen 3, 16 GB RAM‑a i brzim 512 GB SSD‑om pruža pouzdan rad i udobno korištenje na velikom 15.6" ekranu.

499,99 € ~~579,99 €~~ Kupi

🌟💼 Lagani, brzi i pouzdani — IdeaPad Slim 3 je tvoj savršeni partner za posao, školu i putovanja!

+BUNDLE za 1€

Laptop LENOVO IdeaPad Slim 3 83K700BWSC

IdeaPad Slim 3 nudi 15.3" WUXGA zaslon, AMD Ryzen 7 snagu, 24GB DDR5 memorije i 1TB SSD, uz Wi‑Fi 6 i lagani, otporni dizajn — odličan za svakodnevne zadatke i mobilnost

629,99 € ~~699,99 €~~ Kupi

💻✨ Moderan, lagan i pouzdan, Lenovo IdeaPad Slim 3 idealan je za svakodnevni rad, učenje i multimediju.

+BUNDLE za 1€

Laptop LENOVO IdeaPad Slim 3 83ER009VSC i7-13620H/16GB/1TB/16''/W11

Lenovo IdeaPad Slim 3 nudi lagan i izdržljiv dizajn, Full HD zaslon i brze moderne procesore za udoban rad i multimediju. Uz dugotrajnu bateriju i Wi‑Fi 6, pruža stabilne performanse i mobilnost za svakodnevne zadatke.

469,99 € ~~479,99 €~~ Kupi

💻🌈 Lenovo IdeaPad 5 2‑in‑1 83KX005KSC spaja moćan Intel H‑serije procesor, vrhunski OLED zaslon i fleksibilni 360° dizajn za maksimalnu produktivnost i kreativnost.

+BUNDLE za 1€

Laptop LENOVO IdeaPad 5 2-in-1 - 83KX005KSC

IdeaPad 5 2‑in‑1 83KX005KSC nudi 14" WUXGA OLED touch ekran s 100% DCI‑P3 bojama, Intel Core i5‑13420H snagu, 16GB LPDDR5x RAM-a i 1TB SSD. Uz 360° pretvorivi dizajn, Digital Pen i Wi‑Fi 6, idealan je za rad, crtanje i multimediju u pokretu.

899,99 € ~~999,99 €~~ Kupi

Zadnji komentari na forumu

HCMAA 12. kolovoza 2025.

Grok je na gazdu

Svakakav 12. kolovoza 2025.

Parasocial relationship (i.e hikikomori i online "idoli") --> Synthetic relationships (A.I.) --> The Beautiful Ones (John B. Calhoun Behavioral sink) --> Game Over

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

HI-FI SETUP TJEDNA

Acoustic Energy & Arcam

Nova generacija Arcam pojačala uparena s nagrađivanim Acoustic Energy zvučnicima.

Kupi

U središtu svakog vrhunskog stereo sustava.

Akcija

ARCAM A5+

Bežični audio s Bluetooth 5.4, S podrškom za Snapdragon Sound za bežični audio bez gubitaka, S podrškom za Auracast za povezivanje bežičnih slušalica ili zvučnika za reprodukciju glazbe u više prostorija, Hi-res audio digitalni ulazi

739 € ~~899 €~~ Kupi

Pravi britanski audiofilski zvučnik.

Akcija

FALCON ACOUSTICS M10

2-smjerni bas-refleks monitor, Frekvencijski odziv: 40 Hz – 25 kHz (+/-3 dB), 70 Hz – 20 kHz (+/-2 dB), Impedancija: 8 /u2126, osjetljivost: 86 dB / 2.83V / 1m, maksimalna snaga: 100 W

2.249 € ~~2.999 €~~ Kupi

Velik zvuk u elegantnom formatu.

Akcija

REVEL M105 Performa 3

JBL Spinner BT, remenski pogon, aluminijski tanjur, aluminijska igla, prilagodljivi anti-skate, Bluetooth output, RCA output, iskljucivi MM phono stage

999 € ~~1.499 €~~ Akcija

Premium bežične in-ear slušalice s ANC-om

Akcija

BOSE QuietComfort Ultra Earbuds (2nd Gen)

In-ear slušalice s vrhunskim prilagodljivim zvukom, CustomTune tehnologijom, naprednim ANC-om, Bose Immersive Audio podrškom, IPX4 zaštitom i do 6 sati reprodukcije.

349 € ~~375 €~~ Akcija

Pravi hi-fi doživljaj za filmove, glazbu i gaming.

Akcija

JBL MA510

Kvalitetan kućni kino zvuk uz podršku za 4K i 8K video, Dolby Atmos i DTS:X dekodiranje, Class D pojačanje, Bluetooth i mrežni streaming te jednostavno povezivanje s televizorom, konzolama i drugim izvorima.

559 € ~~789 €~~ Akcija

Snažni zvučnik za zahtjevne slušatelje.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

979 € ~~1.399 €~~ Kupi

Preporučamo

Konferencije

održava se 2. travnja

Digitalni radnici, nevidljivi gosti i autentični luksuz: Najavljujemo konferenciju 3T

Mreža 12. ožujka 2026.

Trenutno najpovoljnije cijene na tržištu

Vezano

Događaji

Nije se dugo mučila

OpenAi naprasno gasi Soru! Što se dogodilo?

Ivan Podnar srijeda 17

Premium

RADAR

Umjetna inteligencija - Europa predvodi u prihvaćanju

G.K. ponedjeljak

Komentar

Na putu prema dolje

PC je mrtav. Dobrodošli natrag na mainframe

Ivan Podnar 22. ožujka 2026. 42

Biznis

Agresivno zapošljavanje

OpenAI planira udvostručiti radnu snagu na 8.000 zaposlenika do kraja 2026.

Matej Markovinović 21. ožujka 2026. 1

Umjetna inteligencija

Sve u jednom

OpenAI razvija 'superaplikaciju' koja spaja ChatGPT, Codex i Atlas

Matej Markovinović 20. ožujka 2026.

Biznis

Tko će biti lider?

Usporedba rasta OpenAI-ja, Anthropica i DeepMinda

Mreža 15. ožujka 2026.