Digitalni vračevi ili marljivi štreberi: zašto chatbotu ne treba slati slike svojeg glutealnog osipa
Veliki jezični modeli ne osiguravaju kvalitetnu i samostalnu medicinsku dijagnostiku – ali zbog toga ne trebamo otpisati cijelu medicinsku umjetnu inteligenciju kao beskorisnu i kontraproduktivnu
Sa sve većom prisutnošću sve kvalitetnijih chatbot modela u javnosti se postupno uvriježila i etablirala vrlo privlačna, ali i prilično pogrešna mentalna slika da je umjetna inteligencija jedna velika, univerzalna i homogena stvar – kao da tamo negdje u serverskim oblacima postoji nekakav genijalac - univerzalac, golemi globalni digitalni mozak koji jednako dobro piše seminarske radove, slaže romantična ljubavna pisma, izrađuje fotorealistične slike mačaka u svemirskim odijelima, prevodi s klingonskog na esperanto, a usput je i medicinski sveznalica, pa laboratorijske nalaze i CT-ove očitava bolje od kliničkog dijagnostičara.
LLM koji glumi liječnika
Činjenica je da se sve češće može vidjeti kako ljudi popularne velike jezične modele (large language models, LLM) koriste ne samo za pisanje mailova, prevođenje tekstova i sastavljanje recepata za vegetarijanske lazanje, nego i kao svojevrsne „second-opinion” dijagnostičare medicinskih stanja i tegoba. U LLM-ove se uploadava i učitava sve i svašta: laboratorijski nalazi, fotografije osipa na rukama i stražnjici, skenovi otpusnih pisama, ambulantni zapisi, pa čak i rendgenske, CT ili MR snimke.
Logika koja stoji iza toga je, na prvi pogled, zavodljivo jednostavna: ako je LLM toliko dobar u svemu i svačemu, valjda je onda vrlo dobar i u medicinskom tumačenju nalaza. Nažalost – ili na sreću, ovisno o tome tko na kraju mora donijeti odluku o liječenju – stvari ne funkcioniraju tako. Nedavno je provedena zanimljiva studija koja je pokušala testirati koliko su današnji multimodalni veliki jezični modeli doista pouzdani kada se pred njih stavi jedan pravi radiološki zadatak: da analiziraju CT snimku mozga i pokušaju zaključiti što se na njoj događa.[1]
Kako se moglo i pretpostaviti, za one koji vjeruju da će „AI-doktor” uskoro s lakoćom zamijeniti žive dijagnostičare, rezultati tog testiranja nisu bili nimalo utješni. Modeli jesu prepoznali ono bazično: svi su bez problema shvatili da gledaju CT mozga (wow, ideš!), ali su se već u idućim koracima analize počeli razilaziti u vitalno važnim detaljima. Štoviše, jedan od LLM-ova je napravio i temeljnu, klinički kritičnu pogrešku: prilično samouvjereno ishemijski moždani udar (uzrokovan začepljenjem krvne žile mozga) proglasio hemoragijom (moždanim krvarenjem) i još ga je smjestio na pogrešnu stranu glave.
Kada bi se zaključak tog testiranja slikovnih dijagnostičkih vještina chatbotova sve na jednu rečenicu, rekli bismo da su popularni LLM-ovi u ulozi dijagnostičara CT-snimke moždanog udara zvučali vrlo uvjerljivo i samouvjereno, ali su pritom - realno gledano iz kuta praktičnog kliničara, a jednostavnim rječnikom rečeno - podbacili.
To je, uostalom, situacija koja na najbolji način sažima današnju razinu kvalitete općih LLM-ova po pitanju njihove korisnosti u praktičnoj medicini: oni vrlo uvjerljivo zvuče kao stručnjaci, ali još uvijek ne gledaju i ne vide pacijenta, njegove nalaze i simptome kao dinamičan i individualan međuodnos, pa stoga ne rasuđuju kontekstualno kao što to čine živi medicinski stručnjaci. A u kliničkoj medicini je razlika između tumačenja golih činjenica i iskusnog odvagivanja njihovog odnosa prema složenom kontekstu poprilično važna. Ponekad doslovce životno važna.
Ipak, iz toga ne slijedi da je sav „medicinski AI” bezvrijedan ili da je čitava priča samo prenapuhani tehnološki balon. Naprotiv, iz toga slijedi da treba prestati brkati opće, konverzacijske AI modele s usko specijaliziranim medicinskim algoritmima koji su građeni za jedan konkretan posao, trenirani na specifičnim podacima, validirani prema jasno definiranim kriterijima i uvedeni u praksu kao pomoćni alati, a ne kao digitalni vračevi opće prakse.[1],[2]
A kada na taj način stavimo stvari na njihovo mjesto, tada može početi konkretniji i zanimljiviji dio priče.

Nije sva AI ista
Kad se u medijima piše da je „AI ušao u medicinu”, to zvuči kao da je u bolnice ušetao jedinstven, moćan, globalno dostupan, računalno osnažen sustav s bijelom kutom, stetoskopom i s velikom količinom samopouzdanja temeljenog na raspolaganju praktički svim znanjem na svijetu.
U stvarnosti, riječ je o čitavoj lepezi vrlo različitih alata s vrlo različitom namjenom.
Na jednoj strani spektra nalaze se svima poznati i globalno dostupni opći veliki jezični modeli – LLM-alati poput ChatGPT-a, Geminija, Claudea i sličnih, koji su prvenstveno građeni za rad s jezikom: za razgovor, sažimanje, objašnjavanje i generiranje teksta. Oni zaista mogu biti impresivni, korisni, ponekad i začudno domišljati... ali u svojoj osnovi nisu namijenjeni (a stoga ni programirani, trenirani i baždareni) za medicinsku dijagnostiku, samostalno očitavanje snimki ili donošenje bilo kakvih kliničkih odluka.
Na drugoj strani nalaze se usko specijalizirani medicinski AI sustavi. Američka Agencija za hranu i lijekove (FDA) danas vodi javni popis AI-omogućenih medicinskih uređaja (AI-enabled medical devices), a broj takvih autoriziranih proizvoda je još početkom ove godine prešao 1.200, pri čemu golema većina otpada na radiologiju i srodna područja analize medicinske slikovne dijagnostike.[2],[3]
To su programi koji najčešće rade jednu usku stvar: primjerice, traže znakove dijabetičkih promjena krvnih žila (retinopatije) na fotografiji očne pozadine; na CT angiografiji mozga označavaju sumnju na začepljenje velike krvne žile; na EKG-u ili na signalu s mobitela pokušavaju prepoznati fibrilaciju atrija; na koronarnom CT-u (snimci srčane vaskularizacije) procjenjuju kolika je vjerojatnost da neko suženje stvarno ometa protok krvi kroz srčani mišić...
To nisu „digitalni doktori” u širokom smislu riječi; to su više digitalni dijagnostički subspecijalisti za jednu jedinu, usko specijaliziranu medicinsku sitnicu. I upravo zato taj posao rade daleko bolje od „sveznajućih chatbotova”, općih LLM-ova. U medicini je, naime, često bolje imati pomalo dosadnog i štreberskog, ali discipliniranog i usko educiranog stručnjaka nego šarmantnog sveznalicu koji s velikim samopouzdanjem halucinira u pokušaju pogađanja dijagnoze. Uska specijalizacija AI modela možda nije romantična vizija budućnosti, ali za bolesnika koji kod kuće za računalom pokušava doprijeti do detalja o vlastitoj bolesti, dijagnozama ili terapiji je kudikamo sigurnija po njegovo zdravlje, pa i po život.
Gdje je AI stvarno najjači – i zašto
Ako se pogledaju regulatorna i legislativna pravila i uvjeti, vidi se vrlo jasan obrazac: radiologija dominira zato što joj algoritmi lakše „sjedaju” nego većini drugih grana medicine. Kako je već navedeno, od preko 1.200 AI programa koje je FDA do sada odobrila za korištenje u kliničkoj praksi, ogromna većina se nalazi se u radiologiji, odnosno u obradi medicinskih slika.
To nije slučajno. Radiologija je za algoritme prirodno privlačno područje: ulazni podaci su većinom digitalizirani, zadaci se mogu usko definirati, a ishodi se barem donekle mogu usporediti s referentnim standardom. Drugim riječima, računalu je daleko lakše naučiti prepoznavati određeni uzorak na CT-u ili fotografiji krvnih žila očne pozadine nego razumjeti cjelinu ljudske bolesti u svim individualnim nijansama njene kliničke, laboratorijske i životne raznovrsnosti.
Zato danas među najzrelijim i najkorisnijim medicinskim AI alatima nalazimo upravo one za slikovnu dijagnostiku, probir i trijažu. Ali ni tu stvari nisu tako jednostavne da bi se moglo reći: „Evo, algoritam je sada bolji od čovjeka.” Puno češće je istina da algoritam dobro radi kao dodatni par očiju, kao koristan alat za primarni probir, kao ubrzivač radnog toka ili kao sustav ranog upozorenja. Ukratko, dobar je kao pomoćnik kojeg živi klinički dijagnostičar koristi u raščišćavanju nepregledne količine dijagnostičkih podataka, ali je rijetko kada koristan (i još rjeđe pouzdan) kao samostalni „glavni glumac”.
Dijabetička retinopatija
Ako postoji područje u kojem je specijalizirani medicinski AI doista demonstrirao vrlo opipljivu korisnost, onda je to probir dijabetičke retinopatije.
Dijabetička retinopatija je oštećenje krvnih žila mrežnice (očne pozadine) koje nastaje kao kronična komplikacija šećerne bolesti. U početku može prolaziti gotovo bez simptoma, ali s vremenom može dovesti do teškog oštećenja vida, pa i sljepoće. Problem je, dakako, u tome što puno ljudi ne ide redovito na očne preglede. Upravo zato je važan probir: ne zato da se odmah postavi cijela oftalmološka dijagnoza, nego da se na vrijeme prepoznaju i izdvoje oni bolesnici koje treba poslati dalje na obradu specijalistu. Tu je AI našao svoj prirodni teren.

Prvi pravi povijesni korak bio je sustav IDx-DR, danas poznat pod imenom LumineticsCore. Bio je to prvi autonomni AI dijagnostički sustav koji je FDA odobrila za komercijalnu uporabu.[4] „Autonomni” u ovom kontekstu ne znači da nekakav robotizirani dijagnostičar s vlastitom voljom lovi i pregledava pacijente po oftalmološkoj čekaonici, nego da je dizajniran tako da, uz odgovarajuće snimke, može sam dati rezultat probira bez neposrednog sudjelovanja liječnika u tom trijažnom koraku dijagnostike.
Sustav dakle ne zamjenjuje oftalmologa u cijelosti, ali može samostalno odraditi prvi filter: prosuditi koji nalaz pouzdano izgleda uredno, a koji je sumnjiv i stoga treba daljnju specijalističku obradu.
U ispitivanjima provedenima za potrebe regulatornog odobrenja takvi su sustavi pokazali solidne probirne rezultate, s osjetljivošću 87% i specifičnošću 90%, uz vrlo dobru mogućnost dobivanja upotrebljivih snimki i visoku negativnu prediktivnu vrijednost, što ih čini korisnima kao probirni alat.
Još je zanimljivije to što su kasnija istraživanja pokazala da autonomni AI u primarnoj skrbi može povećati stvarni obuhvat, odnosno broj ljudi koji uopće budu pregledani i na vrijeme upućeni na specijalističku obradu. To je često zanemarena, ali možda i najvažnija stvar: medicinski alat nije koristan samo ako je statistički dobar na papiru, nego ako uspije stvarno promijeniti tijek skrbi.
Naravno, ni ovdje se „računalna inteligencija” ne događa sama od sebe: učinkovitost algoritama ovisi o kvaliteti snimke, populaciji na kojoj su trenirani, pragovima koje se odabere i konkretnom pitanju koje se postavlja. Jedno je tražiti „bilo kakvu” retinopatiju, a drugo samo onu klinički relevantnu, takozvanu referabilnu retinopatiju, koja zahtijeva upućivanje specijalistu.
Meta-analize su pokazale da performanse osjetno ovise upravo o definiciji cilja: algoritmi dizajnirani za prepoznavanje referabilne ili vidno ugrožavajuće retinopatije ponašaju se drukčije od onih koji love „bilo kakvu” promjenu na mrežnici.[15]
Dakle, ni u ovom vrlo uspješnom području nije dovoljno reći „AI za otkrivanje retinopatije dobro radi svoj posao”, nego treba pitati: - Koji AI? Za koji zadatak? U kojoj populaciji? S kojim pragom pouzdanosti?
Radiologija i moždani udar
Drugo područje u kojem je AI najdalje odmaknuo jest urgentna neuroradiologija, osobito hitno zbrinjavanje akutnog moždanog udara.
Kod sumnje na akutni moždani udar vrijeme ne znači samo novac, nego doslovce znači preostalo zdravo moždano tkivo: svaka minuta odgađanja može značiti još više oštećenih neurona, još manje šanse za dobar ishod i još veći rizik da će osoba ostati s trajnim neurološkim posljedicama. Zato su sustavi koji mogu ubrzati prepoznavanje hitnih nalaza vrlo traženi u kliničkoj dijagnostici.
U tom segmentu se danas koriste alati poput Viz LVO, RapidAI, e-Stroke i sličnih rješenja. Premda usko specijalizirani i sofisticirani, ni oni nisu dijagnostički autonomni: regulatorni dokumenti za Viz LVO vrlo jasno pokazuju da je riječ o notification-only alatu – dakle o softveru koji služi za analizu i dojavu sumnjivog nalaza, a ne za konačno dijagnostičko očitanje bez sudjelovanja liječnika.[6]
Njihov posao nije da „postave konačnu dijagnozu” umjesto liječnika, nego da u paraleli s uobičajenim očitanjem analiziraju snimke i pošalju upozorenje da nešto izgleda sumnjivo – recimo, da postoji moguća okluzija (začepljenje) velike krvne žile, dakle akutni zastoj krvotoka u području arterije koja hrani veći dio mozga. Dakle, ti alati su više „pametni alarmi” nego samostalni dijagnostičari.
To možda zvuči manje glamurozno nego ideja o robotu-radiologu, ali je klinički zapravo puno smislenije. U hitnoj medicini nije mala stvar ako sustav uspije brže „pogurnuti” slučaj prema onim subspecijalistima koji ga trebaju zbrinuti. Ponekad je upravo to razlika između na vrijeme izvedene trombektomije (odstranjenja krvnog ugruška iz začepljene arterije) i zakašnjele, propuštene prilike za spašavanje moždanog tkiva od odumiranja.

NICE (National Institute for Health and Care Excellence), britansko stručno i savjetodavno tijelo za zdravstvenu tehnologiju, zaključio je 2025. da su takvi alati obećavajući i potencijalno korisni u zbrinjavanju moždanog udara, ali i da je potrebna i nezaobilazna doza opreza, jer je klinička dokazna baza još uvijek ograničene kvalitete te nedostaje dovoljno robusnih podataka o njihovoj stvarnoj dijagnostičkoj izvedbi u svakodnevnoj uporabi.[5]
Postoje jasni pokazatelji da AI-alati zaista mogu ubrzati odluke i biti korisni, no još uvijek nedostaje dovoljno kvalitetnih podataka o njihovoj točnosti i pouzdanosti baš u realnoj uporabi, onako kako se doista koriste – zajedno s liječnikom, a ne u sterilnim uvjetima idealiziranog istraživanja.
Nije osobito teško pokazati da neki algoritam na pozorno odabranom skupu snimaka radi vrlo dobro, ali je daleko teže pokazati da će jednako dobro raditi u trideset različitih bolnica, na različitim uređajima, u različitim populacijama, s različitim radnim navikama, tijekom noći, vikendom, uz nepotpune podatke i sav onaj kaos koji čini stvarnu medicinu.
Drugim riječima: za sada to jeste korisno, ali nije konačno rješenje.
Kardiologija od džepnog senzora do koronarnih arterija
Kardiologija je još jedan širok teren za specijalizirani medicinski AI, pri čemu govorimo o dvije vrlo različite priče. Prva je priča o ritmu srca, osobito o fibrilaciji atrija. Riječ je o najčešćem trajnom poremećaju srčanog ritma, važnom zato što povećava rizik od moždanog udara i drugih cirkulacijskih komplikacija. Problem je što fibrilacija atrija često može biti teško prepoznatljiva jer je nije stalna nego povremena pojava, pa je stoga neuhvatljiva i lako može promaknuti dijagnostici osim ako se ne snimi i prepozna baš kad tada kad se događa.
Iz potrebe za hvatanjem takve neuhvatljive fibrilacije razvili su se razni AI-alati koji iz EKG zapisa ili čak iz signala dobivenih pametnim satom (ili drugim wearable uređajem, npr. senzorom pametnog telefona) pokušavaju prepoznati obrazac koji upućuje na fibrilaciju atrija. Neki od tih sustava, poput FibriChecka, u multicentričnim validacijama pokazuju vrlo visoku učinkovitost u detekciji moguće fibrilacije atrija – točnost 98,5%, osjetljivost 96,3% i specifičnost 99,3% .[8]
To zvuči odlično, ali i ovdje se vrag nalazi u detaljima: ista je studija upozorila da performanse nisu jednake u svim skupinama, pa je osjetljivost bila slabija kod osoba s tamnijom kožom i višim indeksom tjelesne mase. To nije samo tehnička sitnica, nego podsjetnik da algoritmi nisu neutralna i svemoguća magija: oni mogu biti pristrani, mogu lošije raditi u nekim populacijama i treba ih testirati na način i na mjestu gdje će se zaista koristiti u praksi.
Druga kardiološka priča tiče se koronarnih arterija i CT-om izvedene funkcionalne procjene, osobito pristupa poznatog kao FFRct. Da to pojednostavimo: klasični CT srca može lijepo pokazati anatomiju koronarnih arterija (krvnih žila koje hrane srčani mišić), dakle postoji li njihovo suženje i kako izgleda. Ali taj nalaz ne govori uvijek dovoljno jasno ometa li to suženje protok krvi toliko da je doista klinički važno. FFR (fractional flow reserve) pokušava procijeniti upravo tu funkcionalnu važnost suženja. Tradicionalno se to radilo invazivno tijekom kateterizacijske koronarne angiografije – uvođenjem „žice” kroz krvne žile iz ruke ili noge sve do srca – no moderni AI i računalni modeli pokušavaju te procjene izvesti neinvazivno, bez potrebe za kateterizacijom, već iz podataka dobivenih CT snimanjem.
Tu je dokazna baza općenito ozbiljnija nego u mnogim drugim područjima prijmene AI-dijagnostike. Novija testiranja pokazuju da modeli strojnog učenja temeljeni na računalnoj dinamici fluida za FFRct postižu dijagnostičke rezultate usporedive s onima dobivenim kateterizacijskim mjerenjem kod realnih bolesnika.[9] To ne znači da je problem riješen jednom zauvijek, ali znači da je riječ o području u kojem je AI prestao biti samo marketinški ukras i postaje stvaran alat za pomoć u kliničkoj procjeni.

AI kao dijagnostički prorok
Očito je kako se AI sve više etablira kao pouzdan pomoćni alat kliničkim specijalistima tijekom procesa određivanja dijagnoze, dakle u davanju odgovora na pitanje „u čemu je pacijentov problem?”.
No, ako nakon uspješnog postavljanja dijagnoze AI pokuša riješiti prvo iduće ključno pitanje („kako će taj zdravstveni problem nadalje utjecati na pacijentovo zdravlje?”), dakle kada pokušava predvidjeti široke, kompleksne kliničke događaje: sepsu, naglo pogoršanje stanja, potrebu za intenzivnim liječenjem, terapijske opcije, rizik od invalidnosti ili smrti... tada pouzdanost i učinkovitost medicinskih AI alata naglo opada i ulazi u vrlo nesigurne i mutne vode.
Zašto je AI loš prorok ishoda tijeka bolesti i liječenja? Zato što su ti ishodi u strojnom, digitalnom smislu previše „neuredni”: višefaktorski su, ovise o kvaliteti unosa podataka, o lokalnoj praksi, o definicijama bolesti, vremenu prepoznavanja i još čitavom nizu stvari koje se „nedisciplinirano” ponašaju kad ih pokušamo ugurati u urednu, univerzalnu tablicu podataka.
Klasičan primjer koji se često navodi jest Epic Sepsis Model, široko implementirani komercijalni prediktivni alat za upozorenje na sepsu. Nekoliko provedenih validacija njegove pouzdanosti pokazalo je slabu diskriminaciju i kalibraciju te vrlo ograničenu korisnost. U jednoj poznatoj vanjskoj validaciji pokazao je razočaravajuće rezultate: diskriminacija i kalibracija bile su slabe, a model je hvatao tek mali dio bolesnika sa sepsom koje kliničari već nisu prepoznali.[10]
To je neugodan, ali koristan podsjetnik to što neki AI-program „dobro radi u testiranoj bolnici” i „dobio je zeleno svjetlo za tržište” ne znači automatski da „zaista pouzdano radi posvuda”.
Novije verzije takvih programa i novija multicentrična ispitivanja pokazuju poboljšanje[11], ali i dalje ostaje bitan problem: rezultati su neujednačeni među ustanovama, pozitivna prediktivna vrijednost nije osobito impresivna, a broj upozorenja može biti dovoljno velik da liječnike i sestre naprosto zatrpa potrebom da svaki čas provjeravaju zašto „naš AI robot-doktor” stalno na nešto upozorava. Alarm koji neprestano zvoni postaje pozadinska buka, što je u realnom bolničkom okruženju iritantna, neekonomična i beskorisna, ukratko - štetna pojava.
To je, zapravo, jedna od najvažnijih lekcija cijele medicinske AI priče: nije dovoljno da algoritam bude „statistički dobar”. Mora biti dovoljno dobar, dovoljno stabilan, dovoljno razumljiv i dovoljno uklopiv u praksu da ljudima doista pomaže, a ne da ih usporava, frustrira ili nasuprot tome vodi u lažni osjećaj sigurnosti.
Regulatorna odobrenja nisu isto što i klinička istina
U tom kontekstu valja razbiti i još jednu čestu zabludu. Kad se kaže da je neki medicinski AI „odobren”, mnogi to intuitivno shvate kao da je time definitivno dokazano da sjajno radi u svim uvjetima. Ipak, to nije baš tako.
Regulatorno odobrenje znači da je uređaj ili softver prošao određeni propisani put do tržišta, što jest važno i korisno. Ali, niti je svako regulatorno odobrenje isto, niti nužno podrazumijeva jednako opsežnu neovisnu kliničku validaciju u stvarnom svijetu.
U radiologiji je velik dio AI-enhanced uređaja prošao putem takozvanog 510(k) postupka u SAD-u, koji se načelno temelji na usporedbi s već postojećim uređajem, što pak znači da je velik broj odobrenja prošao bez neovisnog, opsežnog kliničkog testiranja kakvo bi mnogi kliničari intuitivno očekivali.[13] To jeste legitiman regulatorni mehanizam, ali nije isto što i golemo, rigorozno, dugotrajno multicentrično dokazivanje kliničke koristi na razini koja bi zadovoljila svakog skeptičnog kliničara.

Zbog toga se danas sve više naglašava potreba za takozvanim post-market praćenjem – drugim riječima, za praćenjem kako se algoritam ponaša nakon što je već uveden u stvarnu praksu. U radiologiji su zato pokrenuti i posebni registri, poput ACR-ova Assess-AI, koji pokušavaju pratiti performanse alata kroz vrijeme, u realnim uvjetima.[7]
To je zapravo vrlo razumno. Algoritam nije lijepa vaza koju jednom staviš na policu pa je stvar završena. On živi u sustavu koji se mijenja: dolaze novi uređaji, drukčiji protokoli snimanja, nove populacije bolesnika, novi radni tokovi. Ako se performanse ne prate kontinuirano, lako se može dogoditi da alat koji je nekoć bio dobar postane manje pouzdan prije nego što to itko primijeti.
Zašto LLM-ovi i medicinski AI nisu isto
Vratimo se na početnu studiju s multimodalnim modelima i CT-om mozga. Njezina je najveća vrijednost upravo u tome što nas tjera da razdvojimo dvije vrste tehnologije koje se u javnosti stalno trpaju u isti koš. Opći LLM-ovi su fascinantni alati za rad s lingvističkim tokenima, dakle s govornim i pisanim jezikom. Oni mogu sažimati, prevoditi, objašnjavati, organizirati informacije, pomagati u dokumentaciji, skicirati diferencijalnu dijagnozu, pripremiti edukativni materijal ili pomoći u komunikaciji s bolesnicima. I u svemu tome mogu biti vrlo korisni.
Ali to nije isto što i specijalizirani medicinski AI za jednu točno određenu dijagnostičku zadaću. Specijalizirani AI za dijabetičku retinopatiju ne zna napisati poetski esej o smislu života, ali zna vrlo disciplinirano tražiti točno određene promjene na točno određenoj vrsti slike. Algoritam za trijažu moždanog udara nije osobito zabavan sugovornik, ali može pomoći da se sumnjiv slučaj brže usmjeri prema intervencijskom timu. Sustav za analizu srčanog ritma nije sposoban izraditi savršeni prompt za fotorealističnu ilustraciju krave koja u točkastoj pidžami preskače Mjesec, ali može biti vrlo dobar tragač za jednim uzorkom EKG-zapisa koji se ponavlja milijun puta.
I upravo je to možda najvažniji zaključak: u medicini danas najviše vrijede oni AI alati koji su najmanje nalik ljudima i najmanje nalik univerzalnim digitalnim mudracima. Njihova snaga nije u širini, nego u disciplini.
Gdje stvari zapinju?
Ako se pitamo koliko su ti specijalizirani AI-alati doista ušli u medicinsku praksu odgovor glasi: jesu, ali vrlo neravnomjerno. Ušli su ondje gdje rješavaju konkretan problem bez velikog remonta cijelog sustava. Ako se AI može relativno lako spojiti na postojeću radiološku infrastrukturu, pomoći u prioritetizaciji nalaza ili obaviti probir u primarnoj skrbi, šansa za usvajanje je veća. Ako, s druge strane, zahtijeva duboku promjenu radnog toka, mnogo povjerenja u „crnu kutiju”, nejasne koristi i visok broj lažnih alarma, tada se usvajanje usporava.
Sustavni pregledi implementacije AI-ja u rutinsku slikovnu medicinu upravo to i pokazuju: nisu presudne samo brojke o točnosti, nego i interoperabilnost, edukacija korisnika, povjerenje, lokalna organizacija posla, odgovornost, transparentnost i pitanje tko će zapravo reagirati kad algoritam digne ruku i kaže da nešto nije u redu.[12]
Drugim riječima, medicina nije videoigra u kojoj se novi mod samo instalira i sve odmah radi bolje (u redu, znam... ni u videoigrama nije sve baš tako bajkovito bolje sa svakim novim patchem i modom, ali kužite što sam htio reći, ne?).

Hoće li specijalizirani AI zamijeniti liječnike?
E, sad... To je pitanje koje se nameće samo od sebe. I zasad je odgovor prilično jasan: ne, AI neće zamijeniti liječnike, ali će promijeniti dio posla. Štoviše, to već i čini.
Najvjerojatniji scenarij nije svijet bez radiologa, oftalmologa, interventnih kardiologa ili hitnjaka, nego svijet u kojem oni rade uz više usko specijaliziranih digitalnih pomoćnika. Neki od tih pomoćnika služit će za probir, neki za prioritizaciju, neki za mjerenje i kvantifikaciju, neki za upozorenja, neki za dokumentaciju. Neki će doista biti vrlo korisni. Neki će biti prosječni. Neki će završiti kao skupi komad softvera koji više impresionira upravu nego ljude koji s njime svakodnevno rade.
I to nije cinična, nego realna procjena.
Tehnologija će napredovati. Modeli će se poboljšavati. Nastajat će novi hibridi između klasičnih specijaliziranih algoritama i generativnih sustava. Ali medicina će i dalje tvrdoglavo inzistirati na onome što tehnološki marketing najradije preskače: vanjskoj validaciji, kliničkom kontekstu, sigurnosti, pouzdanosti i pitanju što se događa kad alat pogriješi.
To je, iskreno govoreći, sasvim razumno. A u medicini i treba biti tako.
Manje digitalnog mesijanstva, a više korisnog alata
Početna studija s multimodalnim LLM-ovima dobro je poslužila kao hladan tuš. Ne zato što je jednom zauvijek dokazala da su svi opći AI modeli beskorisni u medicini, nego zato što je vrlo zorno pokazala koliko je opasno zamijeniti jezičnu uvjerljivost stvarnom dijagnostičkom pouzdanošću.
No, iz toga ne treba izvući pogrešan zaključak da je sav medicinski AI tek napumpani cirkus. Naprotiv. Kad se algoritam usko definira, kad ga se trenira na pravim podacima, kad se provjerava prema smislenom standardu i kad mu se dodijeli točno određen posao, tada AI može biti vrlo koristan. Ponekad do te mjere da značajno ubrza dijagnostiku, proširi obuhvat probira, poboljša organizaciju skrbi ili preciznije izdvoji bolesnike kojima treba urgentna intervencija.
Drugim riječima: budućnost medicinskog AI-ja vjerojatno neće pripasti jednom svemoćnom digitalnom doktoru koji zna sve o svemu. Više sliči ambulanti prepunoj tihih, marljivih, usko specijaliziranih digitalnih pomoćnika koji svaki rade svoju malu, jasno ograničenu stvar. To možda zvuči daleko manje spektakularno od hollywoodske fantazije o umjetnoj inteligenciji utjelovljenoj u androidnom robotu u bijeloj kuti. Ali za bolesnike, liječnike i zdravstveni sustav upravo taj izostanak fantazije i spektakla jeste mnogo bolja i korisnija stvar.
Literatura
- News-Medical – “Study reveals limitations of large language models in medical diagnostics”
- FDA – Artificial Intelligence-Enabled Medical Devices
- FDA transcript / DHAC 2025 – More than 1.200 AI-enabled medical devices
- FDA De Novo summary – IDx-DR / LumineticsCore
- NICE – Artificial intelligence-derived software to help clinical decision making in stroke
- FDA 510(k) summary – Viz LVO
- ACR – Assess-AI registry
- npj Digital Medicine – FibriCheck multicenter validation study
- Journal of Cardiovascular Computed Tomography – FFRct meta-analysis
- JAMA Internal Medicine – External validation of Epic Sepsis Model
- PubMed – Multicenter prospective validation of updated Epic Sepsis Model v2
- JMIR – Facilitators and barriers to implementing AI in routine medical imaging
- Systematic review of FDA-cleared radiology AI devices
- Cross-sectional study of generalizability of FDA-approved AI-enabled medical devices
- Meta-analysis of regulatory-approved deep learning systems for diabetic retinopathy screening

Igor „Doc“ Berecki je pedijatar-intenzivist na Odjelu intenzivnog liječenja djece Klinike za pedijatriju KBC Osijek. Pobornik teorijske i praktične primjene medicine i znanosti temeljene na dokazima, opušta se upitno ne-stresnim aktivnostima: od pisanja znanstveno-popularnih tekstova u tiskanom i online-izdanju časopisâ BUG, crtkanja računalnih i old-school grafika i dizajna, zbrinjavanja pasa i mačaka, fejsbučkog blogiranja o životnim neistinama i medicinskim istinama, sve do kuhanja upitno probavljivih craft-piva i sasvim probavljivih jela, te neprobavljivog sviranja bluesa.