Umjetna inteligencija stvara slike iz skenova ljudskog mozga

Tehnologija je još u povojima, ali bi jednog dana mogla pomoći ljudima da komuniciraju ili dekodiraju snove

Mladen Smrekar nedjelja, 12. ožujka 2023. u 10:50
Slike rekreirane umjetnom inteligencijom na temelju skeniranja mozga (donji red) odgovaraju izgledu, perspektivi i sadržaju stvarnih fotografija koje su vidjeli sudionici istraživanja (gornji red) 📷 Takagi and Nishimoto / bioRxiv
Slike rekreirane umjetnom inteligencijom na temelju skeniranja mozga (donji red) odgovaraju izgledu, perspektivi i sadržaju stvarnih fotografija koje su vidjeli sudionici istraživanja (gornji red) Takagi and Nishimoto / bioRxiv

Dok neuroznanstvenici pokušavaju shvatiti način na koji ljudski mozak ono što naše oči vide pretvara u mentalne slike, umjetna inteligencija postaje sve bolja u oponašanju tog pothvata. Nova studija postavljena na bioRxiv pokazuje da umjetna inteligencija može čitati snimke mozga i ponovno stvoriti uglavnom realistične verzije slika koje je osoba vidjela. 

Razumijevanje ljudskog uma

Iako zvuči kao nešto iz znanstvenofantastičnog romana, istraživači su uspješno istrenirali sustav umjetne inteligencije da rekreira slike koje su ljudi gledali na temelju skeniranja njihovih mozgova. UI je generirala slike objekata uključujući medvjedića, toranj sa satom i zrakoplov nakon što su sudionici pogledali slične slike.

Izvorne slike (lijevo) i slike generirane umjetnom inteligencijom za sva četiri sudionika
Izvorne slike (lijevo) i slike generirane umjetnom inteligencijom za sva četiri sudionika

Iako ova tehnologija skeniranja mozga u sliku još nije spremna za javnu upotrebu, istraživači kažu da bi se jednog dana mogla pokazati korisnom za razumijevanje onoga što se događa u ljudskim umovima. Nakon što znanstvenici još malo poboljšaju koncept, liječnici bi ga mogli upotrijebiti za komunikaciju s paraliziranim ljudima. Neuroznanstvenicima bi mogao pomoći u tumačenju snova ili u razumijevanju kako druge vrste percipiraju svijet oko sebe.

Jednostavniji proces

Mnogi su dosad umjetnu inteligenciju koristili za čitanje snimaka mozga i ponovno stvaranje slika koje je subjekt nedavno vidio, poput ljudskih lica i fotografija krajolika. No, sad su istraživači Sveučilišta u Osaki koristili Stable Diffusion, generator teksta u sliku koji se pojavio u kolovozu prošle godine. Njihov model je mnogo jednostavniji, zahtijeva tisuće umjesto milijuna parametara ili vrijednosti naučenih tijekom obuke.

Fotografije lica niske kvalitete generirana programom Stable Diffusion
Fotografije lica niske kvalitete generirana programom Stable Diffusion

Dakle, kako to sve funkcionira? Obično korisnik unese riječ ili frazu koju Stable Diffusion, ili druge slične tehnologije kao što su DALL-E 2 i Midjourney, pretvaraju u sliku. Ovaj proces funkcionira jer je UI tehnologija proučila puno postojećih slika i njihovih popratnih tekstualnih naslova i ta obuka tehnologiji omogućuje da identificira uzorke koje zatim može ponovno stvoriti na temelju upita.

Korak dalje

Istraživači su ovu obuku podigli korak dalje podučavajući model umjetne inteligencije za povezivanje podataka funkcionalne magnetske rezonancije (fMRI) sa slikama. Točnije, istraživači su koristili fMRI skeniranje četiriju sudionika koji su pogledali 10.000 različitih slika ljudi, krajolika i predmeta. Drugi UI model uvježbali su da poveže aktivnost mozga u fMRI podacima s tekstualnim opisima slika koje su gledali sudionici studije.

Originalne slike u crvenim okvirima i rekonstrukcije umjetne inteligencije
Originalne slike u crvenim okvirima i rekonstrukcije umjetne inteligencije

Zajedno, ova dva modela omogućila su Stable Diffusionu da fMRI podatke pretvori u relativno precizne imitacije slika koje nisu bile dio skupa za obuku UI-ja.

Dva modela

Na temelju skeniranja mozga, prvi model je mogao rekreirati perspektivu i raspored koji je sudionik vidio, ali njegove generirane slike bile su tek mutne figure. Potom se uključio drugi model, prepoznajući koji objekt ljudi gledaju pomoću tekstualnih opisa slika za obuku. Dakle, ako bi primio snimku mozga koja nalikuje onom iz njegove obuke označenu kao osoba koja gleda avion, stavio bi zrakoplov u generiranu sliku, slijedeći perspektivu prvog modela. Tehnologija je postigla otprilike 80 posto točnosti.

Primjeri rekonstrukcije podražaja s grafikonima koji označavaju rezultate atributa za spol, dob, naočale, pozu i osmijeh
Primjeri rekonstrukcije podražaja s grafikonima koji označavaju rezultate atributa za spol, dob, naočale, pozu i osmijeh

Rekreirane slike nalikuju originalima, ali s nekim primjetnim razlikama. Verzija lokomotive koju je stvorila umjetna inteligencija, na primjer, obavijena je mutnom sivom maglom, umjesto da prikazuje veselo, jarko plavo nebo stvarne slike. A UI-jev prikaz tornja sa satom izgleda više kao apstraktno umjetničko djelo nego kao njegova stvarna fotografija.

Ograničenja tehnologije

Tehnologija obećava, ali još uvijek ima neka ograničenja, upozorava Science. Ona može samo rekreirati slike objekata uključenih u njegov materijal za obuku. A budući da je umjetna inteligencija obradila moždanu aktivnost samo četvero ljudi, proširenje na ostale zahtijevalo bi obuku modela na skeniranju mozga svake nove osobe, što je skup i dugotrajan proces. Kao takva, tehnologija vjerojatno neće postati široko dostupna javnosti, barem ne u svom trenutnom obliku.