Googleov TTS sustav s ljudskim glasom
Google je razvio Tacotron 2, novi sustav za pretvaranje teksta u govor koji se može pohvaliti glasom usporedivim s ljudskim te lakoćom izgovaranja riječi koje su inače teže izgovorive
Google je razvio novi TTS sustav odnosno sustav pretvaranja teksta u govor koji je dobio ime Tacotron 2. Ono što ga razlikuje od dosadašnjih sustava je velika preciznost te glas koji je gotovo nemoguće razlikovati u odnosu na glas ljudskog naratora koji čita tekst.
Sam sustav bazira se na dvije duboke neuronske mreže, od kojih prva pretvara zadani tekst u spektogram, a druga neuronska mreža nazvana WaveNet (koju je razvio Alphabetov AI laboratorij DeepMind i već se koristi u Googleovom asistentu) čita nastale grafikone i pretvara ih u govor.
Tacotron 2 zasad funkcionira samo s engleskim jezikom i radi samo s jednim ženskim glasom Dakle, ako želi dodati novi muški ili ženski glas, Google će morati ponovno istrenirati čitav sustav.
Njegova je posebnost također sadržana u činjenici da nije samo u stanju čitati tekst, već i zamijetiti određene nijanse u samom tekstu (male razlike u naglasku ili značenju), naglasiti određene riječi koje su posebno istaknute u tekstu, s lakoćom izgovarati inače teško izgovorive riječi pa čak i ispraviti određene sitnije pogreške u pisanju.
U rad Tacotron 2 sustava možete se i sami uvjeriti zahvaljujući audio isječcima koje ćete pronaći na sljedećoj poveznici.