Kad logika zakaže: AI i ograničenja medicinskog zaključivanja

Chatbotovi su izvrsni u ponavljanju medicinskih informacija, ali gube na točnosti kad moraju sami zaključivati

Mladen Smrekar srijeda, 13. kolovoza 2025. u 09:28
umjetna inteligencija još uvijek se ne smije smatrati pouzdanim samostalnim izvorom medicinskih odluka, upozoravaju istraživači sa Stanforda 📷 Freepik
umjetna inteligencija još uvijek se ne smije smatrati pouzdanim samostalnim izvorom medicinskih odluka, upozoravaju istraživači sa Stanforda Freepik

Nedavno istraživanje, objavljeno u časopisu JAMA Network Open, otkriva zanimljive izazove s kojima se umjetne inteligencije suočavaju u medicinskom zaključivanju. Naime, istraživači Sveučilišta Stanford testirali su šest različitih AI chatbotova, uključujući ChatGPT, Llama i DeepSeek, kako bi procijenili njihovu sposobnost ne samo da ponove dostupne medicinske informacije, već i da logički zaključuju u situacijama gdje odgovori nisu direktno dostupni.

Rezultati testiranja triju AI chatbotova u kojima su morali koristiti logičko zaključivanje, bez dostupnih gotovih odgovora:  DeepSeek je bio najuspješniji sa samo šest pogrešaka, dok je ChatGPT imao 18 pogrešaka, a Llama čak 26 📷 Perplexity
Rezultati testiranja triju AI chatbotova u kojima su morali koristiti logičko zaključivanje, bez dostupnih gotovih odgovora:  DeepSeek je bio najuspješniji sa samo šest pogrešaka, dok je ChatGPT imao 18 pogrešaka, a Llama čak 26 Perplexity

Chatbotovima je postavljeno 68 pitanja za koja su originalni točni odgovori namjerno uklonjeni i zamijenjeni frazom "nijedan drugi odgovor", prisiljavajući time AI modele da koriste vlastito zaključivanje. Rezultati su pokazali značajan pad točnosti svih modela: DeepSeek prednjači s 62 točna i samo 6 netočnih odgovora, ChatGPT je točan u 50 slučajeva, ali je pogriješio 18 puta, dok je Llama imao najviše pogrešaka – 26 netočnih odgovora naspram 42 točna. 

Primjer zamjene "Nijedan od ostalih odgovora" u procjeni medicinskog obrazloženja 📷 Suhana Bedi, Yixing Jiang, Philip Chung i sur.
Primjer zamjene "Nijedan od ostalih odgovora" u procjeni medicinskog obrazloženja Suhana Bedi, Yixing Jiang, Philip Chung i sur.

Iako su AI modeli vrlo dobri u pronalaženju i ponavljanju informacija lako dostupnih na Internetu, ovi rezultati ukazuju da njihova sposobnost primjene stvarnog medicinskog logičkog rezoniranja zasad nije na zadovoljavajućoj razini. 

Izvedba modela u eksperimentu koji su proveli istraživači sa Stanforda 📷 Suhana Bedi, Yixing Jiang, Philip Chung i sur.
Izvedba modela u eksperimentu koji su proveli istraživači sa Stanforda Suhana Bedi, Yixing Jiang, Philip Chung i sur.

Istraživači upozoravaju da se umjetna inteligencija još uvijek ne smije smatrati pouzdanim samostalnim izvorom medicinskih odluka. Umjesto toga, AI treba koristiti kao pomoćni alat u kliničkoj praksi, a sve rezultate trebaju pažljivo interpretirati i potvrditi kvalificirani zdravstveni djelatnici. Ovi nalazi, kažu, naglašavaju potrebu za daljnjim usavršavanjem AI sustava kako bi njihov rad postao robusniji i pouzdaniji u složenim i nepredvidivim medicinskim situacijama.