Fascinantan, ali i opasan
Microsoftov sustav VALL-E iz tri sekunde govora može sintetizirati bilo čiji glas
Ono što je DALL-E za slike, VALL-E bi trebao biti za ljudski glas. Novi sustav jezičnog modeliranja i računalne sinteze glasa treba samo tri sekunde uzorka kako bi uspješno imitirao bilo koga