Kad logika zakaže: AI i ograničenja medicinskog zaključivanja
Chatbotovi su izvrsni u ponavljanju medicinskih informacija, ali gube na točnosti kad moraju sami zaključivati
Nedavno istraživanje, objavljeno u časopisu JAMA Network Open, otkriva zanimljive izazove s kojima se umjetne inteligencije suočavaju u medicinskom zaključivanju. Naime, istraživači Sveučilišta Stanford testirali su šest različitih AI chatbotova, uključujući ChatGPT, Llama i DeepSeek, kako bi procijenili njihovu sposobnost ne samo da ponove dostupne medicinske informacije, već i da logički zaključuju u situacijama gdje odgovori nisu direktno dostupni.

Chatbotovima je postavljeno 68 pitanja za koja su originalni točni odgovori namjerno uklonjeni i zamijenjeni frazom "nijedan drugi odgovor", prisiljavajući time AI modele da koriste vlastito zaključivanje. Rezultati su pokazali značajan pad točnosti svih modela: DeepSeek prednjači s 62 točna i samo 6 netočnih odgovora, ChatGPT je točan u 50 slučajeva, ali je pogriješio 18 puta, dok je Llama imao najviše pogrešaka – 26 netočnih odgovora naspram 42 točna.

Iako su AI modeli vrlo dobri u pronalaženju i ponavljanju informacija lako dostupnih na Internetu, ovi rezultati ukazuju da njihova sposobnost primjene stvarnog medicinskog logičkog rezoniranja zasad nije na zadovoljavajućoj razini.

Istraživači upozoravaju da se umjetna inteligencija još uvijek ne smije smatrati pouzdanim samostalnim izvorom medicinskih odluka. Umjesto toga, AI treba koristiti kao pomoćni alat u kliničkoj praksi, a sve rezultate trebaju pažljivo interpretirati i potvrditi kvalificirani zdravstveni djelatnici. Ovi nalazi, kažu, naglašavaju potrebu za daljnjim usavršavanjem AI sustava kako bi njihov rad postao robusniji i pouzdaniji u složenim i nepredvidivim medicinskim situacijama.