Muško, žensko, svahili ili urdu, ovaj sintetizator govora moći će sve

Poljski startup ElevenLabs razvija model dubokog učenja za sintezu govora koji tekst pretvara u govor bilo kojim glasom i bilo kojom emocijom, na bilo kojem jeziku

Mladen Smrekar ponedjeljak, 23. siječnja 2023. u 18:15

Nakon posljednjih otkrića u generiranju teksta i slika, sljedeći izazov za umjetnu inteligenciju bit će zvuk. Barem su u to uvjereni ljudi iz poljskog startupa ElevenLabs koji intenzivno radi na text-to-speach sintetizatoru govora i audio konverteru.

Njihovo bi rješenje radilo na bilo kojem jeziku, s bilo kojim glasom i s punim rasponom emocija. I moglo bi se koristiti za sve, od prijevoda audio knjiga do sinkronizacije filmova. Na temelju te ideje primili i dva milijuna dolara kapitala u pre-seed rundi. 

Model dubokog učenja

ElevenLabs je startup za glasovnu tehnologiju. Njihov model dubokog učenja za sintezu govora, nazvan Prime Voice AI, proizvodi umjetne glasove, ali može klonirati i postojeće. Audio knjigu tako vam može čitati glas neke slavne osobe, bez njenog punog sudjelovanja; tehničar glas može klonirati iz uzoraka ne dužih od pet sekundi.

Razvijeno rješenje trenutno radi na engleskom i poljskom, a u startupu se nadaju da će funkcionirati na svim svjetskim jezicima. U sljedećim mjesecima ElevenLabs namjerava objaviti i program automatskog presnimavanja s jednog jezika na drugi, s istim glasom.

Mati Staniszewski i Piotr Dabkowski, osnivači startupa Eleven Labs
Mati Staniszewski i Piotr Dabkowski, osnivači startupa Eleven Labs

Dugoročno gledano, njihov bi se sintetizator govora mogao koristiti u kino sinkronizaciji, TV prijenosima uživo i općenito u komunikaciji u stvarnom vremenu.

Veliki igrači

Poljski ElevenLabs dakako nije jedini startup u području glasovne umjetne inteligencije; tu su još i ukrajinski Respeecher, kanadski Resemble AI i američki WellSaid Labs.

Istim poslom bave se i veliki igrači: u prva tri tjedna ove godine Microsoft je najavio novi alat koji može klonirati nečiji glas i ton iz isječka zvuka od tri sekunde, a Apple je najavio pokretanje novog projekta digitalne naracije za stvaranje audio knjiga.