Strojno učenje simulira kako se zvuk čuje s neke točke u sobi

Sustav može naučiti temeljnu 3D geometriju prostorije iz zvučnih zapisa, baš kao što ljudi koriste zvuk kad procjenjuju svojstva fizičkog okruženja

Mladen Smrekar utorak, 1. studenog 2022. u 12:15

Zamislite gromke akorde orgulja koji odzvanjaju katedralom. Na zvuk koji čujete utječu mnogi čimbenici: položaj orgulja, mjesto na kojem slušatelj stoji, raspored stupova, klupa i drugih prepreka, materijal od kojeg su napravljeni zidovi, gdje se nalaze prozori i vrata...

Učenje iz zvučnih zapisa

Istraživači MIT-a i MIT-IBM Watson AI Laba razvili su model strojnog učenja koji može shvatiti kako će se neki zvuk širiti kroz prostor, omogućujući modelu da simulira ono što bi slušatelj čuo na različitim lokacijama.

Ovaj sustav može naučiti temeljnu 3D geometriju prostorije iz zvučnih zapisa, baš kao što i ljudi koriste zvuk kad procjenjuju svojstva svog fizičkog okruženja.
Uz potencijalne primjene u virtualnoj i proširenoj stvarnosti, ova bi tehnika mogla pomoći agentima umjetne inteligencije da bolje razumiju svijet oko sebe. Na primjer, modeliranjem akustičkih svojstava zvuka u svom okruženju, podvodni istraživački robot mogao bi osjetiti stvari koje se nalaze dalje nego što dopire njegov vid.

Fotometrijska konzistencija

Za hvatanje zvuka istraživači su koristili model strojnog učenja koji se inače koristi u istraživanju računalnog vida (implicit neural representation model). Ovi modeli koriste neuronske mreže koje sadrže slojeve međusobno povezanih čvorova ili neurona koji obrađuju podatke kako bi dovršili zadatak.

Modeli vida imaju koristi od svojstva poznatog kao fotometrijska konzistencija (photometric consistency) koje se ne odnosi na zvuk. Ako netko gleda isti objekt s dvije različite lokacije, objekt izgleda otprilike isto. Ali, promijenite li lokaciju, zvuk koji se čuje mogao bi biti potpuno drugačiji zbog prepreka, udaljenosti itd. Zbog toga je predviđanje zvuka vrlo teško.

Dva svojstva akustike

Istraživači su stoga u svoj model, nazvan neuralno akustičko polje (NAF), uključili dva svojstva akustike: uzajamnu prirodu zvuka i utjecaj lokalnih geometrijskih obilježja. Neuronsku mrežu proširili su mrežom koja bilježi objekte i arhitektonske značajke u sceni, poput vrata ili zidova. Model nasumično uzorkuje točke na toj mreži kako bi naučio značajke na određenim lokacijama.

Struktura prostorije predstavljena je kao udaljenost od najbližeg zida

NAF-u se daju vizualne informacije o sceni i spektrogrami koji pokazuju kako bi zvuk zvučao kad se odašiljač i slušatelj nalaze na ciljanim lokacijama u prostoriji. Zatim model predviđa kako bi zvuk zvučao ako se slušatelj pomakne na bilo koju točku u sceni.

Impulsni odgovor

NAF emitira impulsni odziv, koji bilježi kako bi se zvuk trebao promijeniti dok se širi kroz scenu. Istraživači zatim primjenjuju ovaj impulsni odgovor na različite zvukove kako bi čuli kako bi se ti zvukovi trebali mijenjati dok osoba prolazi kroz prostoriju.

Kvalitativna vizualizacija neuralnih akustičkih polja

Na primjer, ako pjesma svira iz zvučnika u središtu sobe, njihov model bi pokazao kako taj zvuk postaje glasniji kako se osoba približava zvučniku, a zatim postaje prigušen kada izađe u susjedni hodnik.

Multimodalni doživljaj

Pokazalo se i kako primjena akustičnih informacija na model računalnog vida može dovesti do bolje vizualne rekonstrukcije scene. Istraživači sad žele poboljšati model i tehniku primijeniti na složenije impulsne reakcije i veće prostore, poput cijelih zgrada pa čak i četvrti ili gradova.

"Ova nova tehnika mogla bi otvoriti nove prilike za stvaranje multimodalnog doživljaja u metaverzumu", predviđaju istraživači.

Strojno učenje simulira kako se zvuk čuje s neke točke u sobi

Učenje iz zvučnih zapisa

Fotometrijska konzistencija

Dva svojstva akustike

Impulsni odgovor

Multimodalni doživljaj

Vezano

KEF LSX II zvučnici - kompaktni all-in-one sistem

FALCON ACOUSTICS M10

KEF LS50 Meta

JBL Stage 240B

JBL MA710 AV receiver

KEF LSX II LT

JBL SA550 Classic

Savršeni balans vrhunskog zvuka i elegantnog dizajna

Preporučamo

Future of Fintech - 25. studenoga 2025.

Od digitalnog tsunamija do kvantne fizike: Što nam donosi budućnost novca?

25. studenoga 2025.

Fiskalizacija 2.0, mirovina, digitalni euro: konferencija F2 traži odgovore o budućnosti novca

Trenutno najpovoljnije cijene na tržištu

Vezano

Hi-Fi u malom stanu

Kako optimizirati zvuk u manjim prostorima?

Strojno učenje

Apertus: potpuno otvoren i transparentan LLM

TAJNA POBOLJŠANJA

YouTube priznao: Digitalno 'poliramo' vaše Shortse bez pitanja

AI u glazbi

Glazbeni algoritmi: Kako Spotify zna što želite slušati?

alfa bot

Burzovni AI analitičar nadmašio ljudske brokere

Mala, ali moćna

Nova AI tehnologija za pouzdane odgovore uz minimum resursa