Strojno učenje simulira kako se zvuk čuje s neke točke u sobi 

Sustav može naučiti temeljnu 3D geometriju prostorije iz zvučnih zapisa, baš kao što ljudi koriste zvuk kad procjenjuju svojstva fizičkog okruženja

Mladen Smrekar utorak, 1. studenog 2022. u 12:15

Zamislite gromke akorde orgulja koji odzvanjaju katedralom. Na zvuk koji čujete utječu mnogi čimbenici: položaj orgulja, mjesto na kojem slušatelj stoji, raspored stupova, klupa i drugih prepreka, materijal od kojeg su napravljeni zidovi, gdje se nalaze prozori i vrata... 

Učenje iz zvučnih zapisa

Istraživači MIT-a i MIT-IBM Watson AI Laba razvili su model strojnog učenja koji može shvatiti kako će se neki zvuk širiti kroz prostor, omogućujući modelu da simulira ono što bi slušatelj čuo na različitim lokacijama.

Ovaj sustav može naučiti temeljnu 3D geometriju prostorije iz zvučnih zapisa, baš kao što i ljudi koriste zvuk kad procjenjuju svojstva svog fizičkog okruženja.
Uz potencijalne primjene u virtualnoj i proširenoj stvarnosti, ova bi tehnika mogla pomoći agentima umjetne inteligencije da bolje razumiju svijet oko sebe. Na primjer, modeliranjem akustičkih svojstava zvuka u svom okruženju, podvodni istraživački robot mogao bi osjetiti stvari koje se nalaze dalje nego što dopire njegov vid.

Fotometrijska konzistencija

Za hvatanje zvuka istraživači su koristili model strojnog učenja koji se inače koristi u istraživanju računalnog vida (implicit neural representation model). Ovi modeli koriste neuronske mreže koje sadrže slojeve međusobno povezanih čvorova ili neurona koji obrađuju podatke kako bi dovršili zadatak.

Presjek NAF arhitekture
Presjek NAF arhitekture

Modeli vida imaju koristi od svojstva poznatog kao fotometrijska konzistencija (photometric consistency) koje se ne odnosi na zvuk. Ako netko gleda isti objekt s dvije različite lokacije, objekt izgleda otprilike isto. Ali, promijenite li lokaciju, zvuk koji se čuje mogao bi biti potpuno drugačiji zbog prepreka, udaljenosti itd. Zbog toga je predviđanje zvuka vrlo teško. 

Dva svojstva akustike

Istraživači su stoga u svoj model, nazvan neuralno akustičko polje (NAF), uključili dva svojstva akustike: uzajamnu prirodu zvuka i utjecaj lokalnih geometrijskih obilježja. Neuronsku mrežu proširili su mrežom koja bilježi objekte i arhitektonske značajke u sceni, poput vrata ili zidova. Model nasumično uzorkuje točke na toj mreži kako bi naučio značajke na određenim lokacijama.

Struktura prostorije predstavljena je kao udaljenost od najbližeg zida
Struktura prostorije predstavljena je kao udaljenost od najbližeg zida

NAF-u se daju vizualne informacije o sceni i spektrogrami koji pokazuju kako bi zvuk zvučao kad se odašiljač i slušatelj nalaze na ciljanim lokacijama u prostoriji. Zatim model predviđa kako bi zvuk zvučao ako se slušatelj pomakne na bilo koju točku u sceni.

Impulsni odgovor

NAF emitira impulsni odziv, koji bilježi kako bi se zvuk trebao promijeniti dok se širi kroz scenu. Istraživači zatim primjenjuju ovaj impulsni odgovor na različite zvukove kako bi čuli kako bi se ti zvukovi trebali mijenjati dok osoba prolazi kroz prostoriju.

Kvalitativna vizualizacija neuralnih akustičkih polja
Kvalitativna vizualizacija neuralnih akustičkih polja

Na primjer, ako pjesma svira iz zvučnika u središtu sobe, njihov model bi pokazao kako taj zvuk postaje glasniji kako se osoba približava zvučniku, a zatim postaje prigušen kada izađe u susjedni hodnik.

Multimodalni doživljaj

Pokazalo se i kako primjena akustičnih informacija na model računalnog vida može dovesti do bolje vizualne rekonstrukcije scene. Istraživači sad žele poboljšati model i tehniku ​primijeniti ​na složenije impulsne reakcije i veće prostore, poput cijelih zgrada pa čak i četvrti ili gradova.

"Ova nova tehnika mogla bi otvoriti nove prilike za stvaranje multimodalnog doživljaja u metaverzumu", predviđaju istraživači.