Na Stanfordu Siri i Alexu podučavaju kada trebaju govoriti, a kada šutjeti

Predviđanje početnih točaka na temelju intonacije glasa umjesto otkrivanja tišine moglo bi dovesti do sljedeće generacije razgovornih agenata

Mladen Smrekar srijeda, 12. listopada 2022. u 17:29

Uz vokalne obrasce poput visine glasa ili intonacije, trenuci tišine koji se javljaju unutar razgovora neki su od ključnih signala koje ljudi koriste u dijalozima. Čovjek čovjeku obično daje trenutak vremena za razmišljanje; govorni pomoćnici pak svaku šutnju tumače kao prekid razgovora i priliku da preuzmu inicijativu. U nedostatku boljeg razumijevanja signala, razgovorni agenti poput Sirija, Alexe i Google Homea često vode neumjerene, neprirodne razgovore.

Trenuci tišine koji se javljaju unutar razgovora neki su od ključnih signala koje ljudi koriste u dijalozima

Kako bi potakli stvaranje prirodnijeg tijeka razgovora, djelatnici Stanfordovog instituta za umjetnu inteligenciju usmjerenu na čovjeka (HAI) osmislili su način na koji će se razgovorni agent ponašati sličnije onome kako ljudi razgovaraju u stvarnom životu.

Detekcija tišine

Većina sustava za prepoznavanje govora prvo pretvaraju govor korisnika u tekst koji razgovorni agent obrađuje i potom generira tekstualni odgovor. Ovaj tekstualni odgovor se zatim pretvara u govor, što je izlaz koji čujemo kad Alexa odgovori na naš zahtjev.

Istraživanje bi moglo poboljšati sposobnost glasovnog asistenta da tumači promjene u glasovnoj intonaciji

Iako je tehnologija napredovala, činjenica je da se u ovom procesu gube nijanse verbalnog razgovora, a jezični povratni kanali koje ljudi koriste u razgovoru nestaju. Trenutačni agenti koriste detekciju tišine kako bi odredili kad je njihov red da govore, obično nakon 700 do 1000 milisekundi. Ljudi su puno brži od toga, obično reagiraju unutar 200 milisekundi, otkrivaju istraživači.

Kontinuirana analiza

Problem, kažu, nije samo u ljudskom razgovoru nego i u korisničkom sučelju. Ljudima je ugodno razgovarati s drugim ljudima i te karakteristike oni pokušavaju unijeti i u svoje razgovore s razgovornim agentima.

Christopher Manning, pomoćnik direktora Stanford HAI-a i profesor lingvistike i računarstva na Stanfordu

Ali kada te karakteristike nisu podržane, to postaje problem interakcije koji dovodi do zabune, upozoravaju Stanfordovi istraživači koji su odlučili reformulirati model za kontinuiranu analizu glasovnog unosa kako bi bio što sličniji onome što ljudi rade u stvarnom životu.

Najefikasnija kombinacija

Istraživači su razmotrili dvije faze: govor i šutnju kako bi pokušali predvidjeti tok razgovora na temelju promjena intonacije. Pritom su koristili kombinaciju umjetne inteligencije otvorenog koda GPT-2 (Generative Pre-Training Transformer 2) za značajke riječi i wav2vec za prozodiju, značajke jezika koje utječu na stvaranje ritma i akustičnih efekata, s modelom Gaussovih mješavina (GMM).

[CL] When can I Speak? Predicting initiation points for spoken dialogue agents
S Li, A Paranjape, C D. Manning [Stanford University] (2022) https://t.co/ZkDJbEzAY6 #MachineLearning #ML #AI #NLP #NLProc pic.twitter.com/v1fLywtDpm
— fly51fly (@fly51fly) August 10, 2022

Ova kombinacija modela pokazala se najučinkovitijom, lako nadmašujući trenutne modele temeljene na šutnji. Rezultat je model strojnog učenja koji kontinuirano predviđa i uvijek pazi je li došao red na agenta.

U nedostatku boljeg razumijevanja signala, razgovorni agenti često vode neumjerene, neprirodne razgovore

Glasovni pomoćnik 2.0

Model uzima u obzir intonaciju i druge prozodijske značajke iz govora i nudi uvid u korisnikov odgovor na određenu izjavu agenta. To je, vjeruju na Stanfordu, putokaz za buduće glasovne pomoćnike koji neće samo pretvarati tekst u govor i automatski prepoznavati govor s detekcijom pauze nego će u obzir uzimati i razne nijanse glasa.

Vezano

📢 Uštedi

Laptop ASUS VivoBook 15

Sniženo

449,99€ ~~489,99€~~ Kupi

📢 Uštedi

HONOR Magic 7 Lite

Uhvati priliku

349,99€ ~~399,99€~~ Kupi

📢 Uštedi

Monitor 32" SAMSUNG

Provjeri odmah

379,99€ ~~439,99€~~ Kupi

📢 Uštedi

Digitalni fotoaparat NIKON Z30 + 12-28VR

Na popustu

999,99€ ~~1.199,99€~~ Kupi

📢 Otkrij

Ruksak za laptop OCTIO Essentials MultiPack

Provjeri odmah

14,99 € ~~19,99€~~ Kupi

📢 Uštedi

Električni romobil XIAOMI Electric Scooter 4 Lite (2nd Gen)

Uhvati uštedu

299,99€ ~~359,99€~~ Kupi

📢 Otkrij

Računalo LINKS Multimedia

Saznaj više

749,99€ Kupi

📢 Otkrij

Tablet XIAOMI Redmi Pad 2

Iskoristi akciju

199,00€ ~~209,00€~~ Kupi

Novosti iz naše Hi-Fi slušaonice

Acoustic Energy AE320² – konačno stigli u Ronis Velesajam!

AE320² dolazi u elegantnom, tankom kućištu izrađenom od visokokvalitetnog RSC™ MDF-a s bitumenom koji značajno smanjuje rezonanciju, omogućujući čist i prirodan zvuk bez interferencija.

Kupi

-30% na vrhunski JBL Hi-Fi!

Akcija

JBL Stage Hi-Fi zvučnici i moćni JBL AV receivere

Zapanjujući stereo zvuk, snaga i moderan dizajn – sve što ti treba za pravi audio doživljaj u tvom domu.

Akcija

50th Anniversary Limited Edition.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC monitor s Falcon B110 wooferom i T27 visokotoncem, 70Hz–20kHz, 15Ω, 82.5dB, 50–80W, Golden Madrone furnir, dimenzije 305 x 190 x 165 mm.

3.439,00 € ~~4.299,00 €~~ Akcija

Iznimne performanse i svestranost.

Akcija

PARASOUND JC3+ phono pretpojačalo

Frekvencijski raspon: 20 Hz - 20 kHz, +/- 0.2 dB, THD: < 0.01% at 1 kHz, SNR, MM > 87 dB, input shorted, IHF A-weighted > 78 dB, input shorted, unweighted

3.822,00 € ~~4.778,00 €~~ Akcija

Next Generation HDI™ valovod.

Akcija

JBL Stage 250B

5.25" poliselulozni woofer, 1" anodizirani aluminijski visokotonac s HDI™ horna valovodom, 2-smjerni sustav, skretnica na 1.7kHz, frekvencijski odziv 50Hz–25kHz (±6dB), osjetljivost 86dB, impedancija 6Ω, preporučena snaga pojačala 20–150W, bass-reflex kućište s otvorom straga

349,30 € ~~499,00 €~~ Akcija

Savršen za srednje i velike sobe.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

1.189,00 € ~~1.399,00 €~~ Akcija

Bluetooth slušalice s do 24 sata trajanja baterije.

Akcija

MARLEY Positive Vibration XL

Bluetooth® 5.0 - Battery life: 32 Hours with ANC off / 26 Hours with ANC on - 40mm Hi Definition Drivers - USB-C Quick Charge 15 minute charge = 2 hours of playtime - Ultra Comfort foam ear cushions - Onboard Mic & Remote Functionality

69,98 € ~~99,00 €~~ Akcija

Aktivni zvučnik s Bluetooth aptX i NFC povezivanjem.

Akcija

WHARFEDALE DS1

100 mm bas i 20 mm visokotonac, pojačanje 7W RMS / 14W max, frekvencijski odziv 55Hz–20kHz (±3dB), osjetljivost linijskog ulaza 350mV, kontrole za glasnoću, izvor i uparivanje, 3,5 mm ulaz.

175,00 € ~~232,26 €~~ Akcija

StreamMagic Gen4 modul za steaming.

CAMBRIDGE AUDIO CXN 100

DAC ESS ES9028Q2M, podrška za PCM do 32-bit/768kHz i DSD do x512, Bluetooth 5.1, AirPlay 2, Chromecast, Roon Ready, XLR/RCA izlazi, Wi-Fi/Ethernet, potrošnja 30W, dimenzije 430 x 85 x 305 mm.

1.089,00 € Kupi

DTS Play-Fi® tehnologija.

AUDIOLAB 7000N Play

Bežični streamer s ESS ES9038Q2M DAC-om, 2.8" IPS zaslon, DTS Play-Fi, AirPlay 2, podrška za TIDAL, Qobuz, Spotify, multi-room, koaksijalni i optički izlazi, RCA, 192kHz/24-bit, THD <0.0005%, S/N >115dB, 12V trigger, LAN, dimenzije 444 x 340 x 78 mm, masa 5 kg

689,00 € Kupi

Snažno integrirano pojačalo s DAC-om.

WiiM Vibelink Amp

Klasa-D pojačalo s PFFB tehnologijom, 200W/4Ω, 100W/8Ω, DAC ESS9039Q2M, THD+N ≤0.0005%, SNR ≥120dB, frekvencijski raspon 20Hz–20kHz (±0.5dB), analogni RCA ulaz bez ADC-a, optički i koaksijalni digitalni ulazi (192kHz/24-bit), pozlaćeni zvučnički priključci, 12V trigger, auto-standby

369,00 € Kupi

KEF LSX II