Googleov TTS sustav s ljudskim glasom

Google je razvio Tacotron 2, novi sustav za pretvaranje teksta u govor koji se može pohvaliti glasom usporedivim s ljudskim te lakoćom izgovaranja riječi koje su inače teže izgovorive

Matija Pavlić četvrtak, 28. prosinca 2017. u 07:00

Google je razvio novi TTS sustav odnosno sustav pretvaranja teksta u govor koji je dobio ime Tacotron 2. Ono što ga razlikuje od dosadašnjih sustava je velika preciznost te glas koji je gotovo nemoguće razlikovati u odnosu na glas ljudskog naratora koji čita tekst.

Sam sustav bazira se na dvije duboke neuronske mreže, od kojih prva pretvara zadani tekst u spektogram, a druga neuronska mreža nazvana WaveNet (koju je razvio Alphabetov AI laboratorij DeepMind i već se koristi u Googleovom asistentu) čita nastale grafikone i pretvara ih u govor.

Tacotron 2 zasad funkcionira samo s engleskim jezikom i radi samo s jednim ženskim glasom Dakle, ako želi dodati novi muški ili ženski glas, Google će morati ponovno istrenirati čitav sustav.

Njegova je posebnost također sadržana u činjenici da nije samo u stanju čitati tekst, već i zamijetiti određene nijanse u samom tekstu (male razlike u naglasku ili značenju), naglasiti određene riječi koje su posebno istaknute u tekstu, s lakoćom izgovarati inače teško izgovorive riječi pa čak i ispraviti određene sitnije pogreške u pisanju.

U rad Tacotron 2 sustava možete se i sami uvjeriti zahvaljujući audio isječcima koje ćete pronaći na sljedećoj poveznici.