Umjetna inteligencija

Ferovac u ekipi znanstvenika koji strojeve uče da nas čuju

Mladen Smrekar ponedjeljak, 25. srpnja 2022. u 09:45

Zoran Tiganj, docent na Sveučilištu Indiana Bloomington, pomogao je američkim istraživačima da osmisle alat za dubinsko učenje koji razumije riječi izgovorene različitim brzinama od onih na kojima je trenirana mreža

Kognitivni znanstvenik sa Sveučilišta u Virginiji, Per Sederberg ima zabavan eksperiment koji možete isprobati kod kuće. Izvadite pametni telefon i pomoću glasovnog asistenta poput onog za Googleovu tražilicu izgovorite riječ "octopus" što sporije možete. Vaš će uređaj teško ponoviti ono što ste upravo rekli. Mogao bi pružiti besmislen odgovor ili odgovoriti nešto kao "toe pus". 

Tempo nije važan

Stvar je u tome, kaže Sederberg, kad je riječ o primanju slušnih signala, trenutna umjetna inteligencija, unatoč svoj računalnoj snazi kojom su je obdarili teškaši kao što su Google, Deep Mind, IBM i Microsoft, ostaje pomalo nagluha. Ishodi mogu varirati od komičnih i blago frustrirajućih do potpuno nerazumljivih za one koji imaju problema s govorom.

Zoran Tiganuj (lijevo), Per Sederberg (gore) i Brandon Jacques (dolje)
Zoran Tiganuj (lijevo), Per Sederberg (gore) i Brandon Jacques (dolje)

No, koristeći nedavna otkrića u neuroznanosti kao model, istraživači  su osmislili način na koji će postojeće UI neuronske mreže pretvoriti u tehnologiju koja nas doista može čuti, bez obzira kojim tempom govorimo.


Veliki potencijal SITHCona

Ovaj alat za dubinsko učenje zove se SITHCon i generalizacijom unosa može razumjeti riječi izgovorene različitim brzinama od onih na kojima je trenirana mreža.

Morseov dekoder
Morseov dekoder

SITHCon ne mijenja samo iskustvo krajnjeg korisnika; on ima potencijal promijeniti i način na koji umjetne neuronske mreže "razmišljaju", omogućujući im učinkovitiju obradu informacija. A to bi pak moglo promijeniti sve u industriji koja neprestano želi poboljšati sposobnost obrade, minimizirati pohranu podataka i smanjiti golemi ugljični otisak umjetne inteligencije.


Jedan model kao pet automobila

Danas se u svijetu govori više od 7000 jezika. Varijacije nastaju s naglascima i dijalektima, dubljim ili višim glasovima i bržim ili sporijim govorom. Kako konkurenti stvaraju bolje proizvode, na svakom koraku računalo mora obrađivati informacije.

Alexa, kaži "octopus"...
Alexa, kaži "octopus"...

A to ima stvarne posljedice za okoliš. Studija 2019. godine pokazala je da su emisije ugljičnog dioksida iz energije potrebne za obuku jednog velikog modela dubokog učenja jednake otisku pet automobila. A otad su skupovi podataka i neuronske mreže samo nastavili rasti.

Pomoć ferovca

Revolucionarno istraživanje, predstavljeno na Međunarodnoj konferenciji o strojnom učenju ICML u Baltimoreu, kulminacija je Sederbergovog rada koji je prije pet godina s kolegama među kojima je i svojedobni zagrebački student, ferovac Zoran Tiganj, danas docent na Sveučilištu Indiana Bloomington, započeo izradu i testiranje modela.

Algoritam ima oblik kompresije koji se može raspakirati po potrebi, otprilike onako kako zip datoteka na računalu komprimira i pohranjuje velike datoteke. Stroj samo pohranjuje "memoriju" zvuka u razlučivosti koja će kasnije biti korisna, čime se štedi prostor za pohranu.

Proces obuke

Obuka umjetne inteligencije za SITHCon uspoređena je s postojećim resursom, "vremenskom konvolucijskom mrežom", besplatno dostupnom istraživačima. Proces je započeo osnovnim jezikom, Morseovom abecedom koja koristi duge i kratke nizove zvukova za predstavljanje točaka i crtica, i napredovao do open-source skupa govornika engleskog jezika koji su izgovarali brojeve od 1 do 9. Daljnje usavršavanje nije bilo potrebno jer se umjetna inteligencija više nije dala prevariti nakon što je prepoznala komunikaciju pri jednoj brzini.

Na SITHConu je rađeno pet  godina
Na SITHConu je rađeno pet godina

Istraživači su odlučili kod učiniti dostupnim, i to besplatno, a informacije bi se trebale prilagoditi bilo kojoj neuronskoj mreži koja prevodi glas.

"Dodirnuli smo temeljni način na koji mozak obrađuje informacije, kombinirajući snagu i učinkovitost, a tek smo zagrebali po površini onoga što ovi modeli umjetne inteligencije mogu," kaže Sederberg koji želi vjerovati da će se umjetnoj inteligenciji koja bolje čuje pristupiti etički, kao što bi u teoriji trebala biti sva tehnologija.

📢 Windows 11

ACER Aspire 3

Ryzen 5 3500U, 12GB, 512GB SSD, Radeon Graphics, 15.6“ LED FHD, Windows 11.

3.999kn 530,76 € Kupi

📢 Windows 11

HP 255 G8

Ryzen 3 5300U, 8GB, 256GB SSD, Radeon Graphics, 15.6" LED FHD, Windows 11.

3.299kn 437,85 € Kupi

📢 12 rata bez kamata

ASUS ROG

Serija laptopa za najbolji gaming doživljaj. Pretvara svaku igru u realistično iskustvo.

Od 12339kn Kupi


HI-FI EXPERIENCE WEEK

KEF

Od 28.11. do 16.12. 2022. posjeti našu slušaonu na Zagrebačkom Velesajmu i uživaj u KEF Wireless aktivnim zvučnicima.

Kupi

2 1/2-stazni podni zvučnici

REVEL F35

Sposobnost pružanja performansi dostojnih najzahtjevnijih sustava za zabavu, 35-20,000Hz, 6 Ohma, 90 dB, 30-180W.

15.999 kn 2.123,43 € Kupi

ANC naglavne slušalice

KEF Mu7

Čist, precizan zvuk visoke razlučivosti, intuitivne kontrole na dodir, jasno snimanje glasa, do 40 sati reprodukcije, Bluetooth 5.1.

2.999 kn 398,04 € Kupi