Sintetiziranje govora putem 'čitanja misli'

Govorna komunikacija je jedna od ključnih sposobnosti koje su Homo sapiensa uzdigle od ostatka životinjskog svijeta. No, kako komunicirati ako ste paralizirani i ne možete se ni kretati ni govoriti?

Igor Berecki nedjelja, 12. svibnja 2019. u 06:30

Neurološka posljedica moždanog udara, traume mozga, tumora ili neurodegenerativih bolesti (Parkinsonove bolesti, multiple skleroze, amiotrofične lateralne skleroze - ALS) osim motoričkog oštećenja (paralize tijela i udova) može biti i potpuni, nepovratni gubitak sposobnosti govora.

Trepni jednom za 'DA'

Današnja tehnologija omogućuje paraliziranim osobama da pokretima očiju ili mimikom pokreću kursor na zaslonu s virtualnom tipkovnicom i tako slovo po slovo slažu riječi i rečenice koje potom mogu biti i 'pročitane' sintetiziranim govorom. Stephen Hawking, nedavno preminuli teorijski fizičar koji je bolovao od ALS-a vjerojatno je najpoznatiji primjer paralizirane osobe koja je za komunikaciju koristila takvo računalo.

No, takav način je tek korak ispred primitivnog sustava poput onog 'trepni jednom za DA, dvaput za NE, deset puta za F, a dvadeset i pet puta za Š'. Pisanje riječi ili sintetiziranje govora na takvim uređajima je ekstremno naporno za korisnika, podložno je pogreškama i razočaravajuće je sporo: čak i najuvježbaniji pacijenti tijekom jedne minute ne uspijevaju oblikovati više od 10 riječi. Za usporedbu, prirodni govor se odvija brzinom od 150-200 riječi u minuti.

Međutim, povećanje procesorske brzine i snage računala, uz napredak računalne medicinske dijagnostike dovelo je do mogućnosti  kreiranja tehnologije koja može pomoći nepokretnim ljudima bez sposobnosti komuniciranja govorom.

Od misli do izgovorene riječi

U časopisu Nature je 24. travnja 2019. objavljen znanstveni tekst o projektu izrade senzoričko-računalnog sustava koji registrira moždane mikroelektrične signale i od njih stvara sintetiziranu verziju govora.  

Istraživanje je za motiv imalo pokušaj dekodiranja ljudskog govora izravnim očitavanjem neuralnih signala iz moždanih centara (Brokinog centra za govor i senzomotoričkog korteksa velikog mozga zaduženog za vokalizaciju) - dakle doslovno „čitanjem misli“ pacijenta.

Projekt je temeljen na prethodnoj studiji u kojoj su stručnjak za govor dr. Gopala Anumanchipalli i bioinženjer Josh Chartier po prvi puta detaljno analizirali i opisali način kako vokalni centar ljudskog mozga planira i potom kreira govor složenim koreografiranjem cjelokupnog vokalnog trakta.

Centri za govor ljudskog mozga osmišljavaju i planiraju izgovorene riječi, te upravljaju ekstremno složenim anatomskim sustavom za glasovnu komunikaciju. Moždani signali precizno i simultano koordiniraju skoro stotinu mišića usana, jezika, čeljusti, grla, ždrijela i glasnica kako bi od ideje, misli i zraka izdahnutog iz pluća stvorili glas koji oblikuje riječi i rečenice.

U ovoj studiji su Anumanchipalli i Chartier ispitivali pet dragovoljaca koji su u to vrijeme bili liječeni u Centru za epilepsiju UCSF-a. To su bili pacijenti s neoštećenim govorom kojima su u sklopu priprema za neurokirurško liječenje u mozak bile privremeno implantirane elektrode za precizno mapiranje žarišta epileptičkih napadaja.  

Reverzni inženjering govora

Dok su pacijenti-dragovoljci naglas čitali desetke zadanih rečenica, mikroelektrična aktivnost iz njihovih moždanih centara za govor bilježena je pomoću već implantiranih elektroda. Računalni sklop je registrirane moždane signale dekodirao u govorne uzorke (speech patterns).

Program strojnog učenja u kojega su ugrađena anatomsko-fiziološka i lingvistička načela generiranja govora je iz audio-zapisa glasa reverznim inženjeringom rekonstruirao i softverski emulirao anatomsku građu i funkciju vokalnog sustava: tipične pokrete mišića i organa vokalnog trakta potrebnih za stvaranje točno određenih glasova i riječi (kretnje i uzajamni odnos jezika i usana, kontrolu razmaka među glasnicama, zatezanje i opuštanje grkljana…).

Elektrodama prikupljeni govorni uzorci su iz neuralne mreže proslijeđeni u dekoder, gdje su 'prevedeni', a potom u sintetizatoru digitalizirani u računalni govor.

"Po prvi puta se dokazalo da je iz moždane aktivnosti moguće generirati izgovorene rečenice", rekao je dr. Edward Chang, profesor neurokirurgije s Instituta za neuroznanost UCSF Weill, u čijem laboratoriju je istraživanje provedeno.

Za sada još nije postignuto savršeno oponašanje govornog jezika:  iako su vrlo dobri rezultati u oponašanju ritma i intonacije govora i spola govornika, te u sintetiziranju riječi kojima dominiraju zvukovi poput 's', 'š', 'z', još uvijek nije dovoljno precizno modeliranje i razlikovanje nekih glasova, poput 'b', 'p' i 't'. Ipak, u usporedbi sa sporom 'slovo-po-slovo' komunikacijom kakva je trenutno dostupna, ovi preliminarni rezultati su impresivni ponajviše zbog postizanja sasvim zadovoljavajuće govorne komunikacije, praktički u realnom vremenu.

Kada nijemi progovore...

Rezultati istraživanja najavljuju da će se s već dostupnom tehnologijom moći konstruirati  klinički upotrebljiv uređaj za sintetiziranje glasovnu komunikaciju bolesnika s gubitkom govora. Štoviše, ne samo da bi osobama s teškim poremećajima govora mogao vratiti sposobnost glasovne komunikacije, nego bi mogao i reproducirati fine varijacije u intonaciji ljudskog glasa koje su specifične za osobnost i emocije govornika.

Dr. Anumanchipalli pokazuje usavršeni model površinske elektrode za registriranje moždane aktivnosti iz govornih centara
Dr. Anumanchipalli pokazuje usavršeni model površinske elektrode za registriranje moždane aktivnosti iz govornih centara

Istraživači su već prešli na usavršavanje sustava: eksperimentiraju s površinskim kožnim elektrodama veće gustoće i naprednijim algoritmima strojnog učenja za koje se nadaju da će još više poboljšati sintetizirani govor. A potom slijedi testiranje sustava na paraliziranim pacijentima s oštećenom motorikom govora i utvrđivanje optimalne metode učenja 'projekcije' vlastitih moždanih govornih slika u dekoder/sintetizator glasa.

"Već se smatra normalnim da paralizirani pacijenti mogu svojim moždanim impulsima kontrolirati pokrete mehaničkih robotskih ruku i nogu", kaže Chartier. "Nadamo se da će jednoga dana ljudi s govornim poteškoćama moći iznova naučiti govoriti - a zašto ne i pjevati? - pomoću sintetizatora glasa kojega kontroliraju svojim mislima."
 

 

Igor „Doc“ Berecki je pedijatar-intenzivist na Odjelu intenzivnog liječenja djece Klinike za pedijatriju KBC Osijek. Od posla se opušta antistresnim aktivnostima: od pisanja svojevremeno popularnih tekstova i ilustracija u tiskanom izdanju časopisa BUG, crtkanja grafika i dizajna, zbrinjavanja pasa i mačaka, te fejsbučkog blogiranja o craft-pivima, životnim neistinama i medicinskim trivijama, sve do pasioniranog kuhanja posve probavljivih jela i sviranja slabo probavljivog bluesa.