Chatbotovi na testu gluposti: verbalne besmislice otkrivaju ograničenja UI modela

Znanstvenici su propitali devet različitih jezičnih modela sa stotinama parova rečenica kako bi provjerili procjenjuju li modeli njihovu smislenost na isti način kao i ljudi

Mladen Smrekar ponedjeljak, 18. rujna 2023. u 07:05

U novoj studiji istraživači su pratili kako trenutni jezični modeli, kao što je ChatGPT, besmislene rečenice pogrešno smatraju smislenim FULLVECTOR

Ušli smo u eru chatbotova koji, čini se, razumiju i koriste jezik na način na koji to činimo mi ljudi. Ispod haube, ovi oni koriste velike jezične modele. Međutim, nova studija pokazuje da veliki jezični modeli ostaju ranjivi na besmislice koje su u stanju zamijeniti s prirodnim jezikom. Za istraživače Zuckermanonoc instituta na Sveučilištu Columbia ovaj nedostatak mogao bi ukazati na načine poboljšanja performansi chatbota i pomoći otkriti kako ljudi obrađuju jezik.

Devet modela na testu

U članku "Testiranje granica modela prirodnog jezika za predviđanje prosudbi ljudskog jezika", objavljenom u časopisu Nature Machine Intelligence, znanstvenici su propitali devet različitih jezičnih modela sa stotinama parova rečenica i provjerili hoće li njihovu smislenost modeli ocijeniti na isti način kao i ljudi.

Različiti jezični modeli umjetne inteligencije donose različite prosudbe o tome jesu li rečenice smislene ili besmislene 📷 Zuckerman Institute, Columbia University — Različiti jezični modeli umjetne inteligencije donose različite prosudbe o tome jesu li rečenice smislene ili besmislene Zuckerman Institute, Columbia University

U direktnim testovima, sofisticiranija umjetna inteligencija temeljena na transformatorskim neuronskim mrežama (transformer neural networks) pokazala je bolju izvedbu od jednostavnijih rekurentnih modela neuronskih mreža i statističkih modela koji samo zbrajaju učestalost parova riječi pronađenih na internetu ili u online bazama podataka. Ali svi su modeli griješili, ponekad birajući rečenice koje ljudskom uhu zvuče kao besmislica.

Parovi smislenih i besmislenih izjava

"To što se čak i najbolji modeli mogu prevariti besmislenim rečenicama pokazuje da njihovim proračunima nedostaje nešto od načina na koji ljudi obrađuju jezik", ističu istraživači. Tipični primjeri parova rečenica postavljenih u testu glasili su otprilike ovako: "That is the narrative we have been sold" i "This is the week you have been dying".

Svi su modeli griješili, ponekad birajući rečenice koje ljudskom uhu zvuče kao besmislica 📷 Zuckerman Institute, Columvia University — Svi su modeli griješili, ponekad birajući rečenice koje ljudskom uhu zvuče kao besmislica Zuckerman Institute, Columvia University

Ljudi su dakako prvu rečenicu odreda proglasili smislenijom, baš kao što ju je kao takvu prepoznao i GPT-2, dok je recimo model BERT prirodnijom smatrao drugu rečenicu. No, nijedan se model nije pokazao sasvim točnim. I svaki je od njih, neki više neki manje, neke nama besmislene rečenice označio smislenima, upozoravaju istraživači koji smatraju da bi s puno više opreza trebali razmotriti želimo li doista prepustiti UI sustavima da donose važne odluke.

Bolje razumijevanje ljudskog mozga

Dobru, ali nesavršenu izvedbu mnogih modela istraživači su doživjeli kako izazov i smatraju da razumijevanje tog jaza između ljudi i jezičkih modela, ali i razlika između pojedinih modela može potaknuti njihov napredak.

Gibberish or Genius? Verbal Nonsense Reveals Limitations of AI Chatbots https://t.co/jgDJBx25Uq #scichat #ArtificialIntelligence
— Gerry Ward (@gwardis) September 15, 2023

Istraživače je zanimalo i mogu li saznanja o radu chatbotova pomoći neuroznanstvenicima da bolje razumiju način na koji radi ljudski mozak; oni su uvjereni kako bi daljnja analiza prednosti i mana raznih chatbota i njihovih temeljnih algoritama mogla pomoći u odgovoru na to pitanje.

"Ovi AI alati su sve moćniji, ali obrađuju jezik drugačije od načina na koji mi to radimo. Usporedba njihovog razumijevanja jezika s našim daje nam novi pristup shvaćanja načina na koji mi razmišljamo", kažu istraživači.

Vezano

📢 Uštedi

Laptop ASUS VivoBook 15

Sniženo

449,99€ ~~489,99€~~ Kupi

📢 Uštedi

HONOR Magic 7 Lite

Uhvati priliku

349,99€ ~~399,99€~~ Kupi

📢 Uštedi

Monitor 32" SAMSUNG

Provjeri odmah

379,99€ ~~439,99€~~ Kupi

📢 Uštedi

Digitalni fotoaparat NIKON Z30 + 12-28VR

Na popustu

999,99€ ~~1.199,99€~~ Kupi

📢 Otkrij

Ruksak za laptop OCTIO Essentials MultiPack

Provjeri odmah

14,99 € ~~19,99€~~ Kupi

📢 Uštedi

Električni romobil XIAOMI Electric Scooter 4 Lite (2nd Gen)

Uhvati uštedu

299,99€ ~~359,99€~~ Kupi

📢 Otkrij

Računalo LINKS Multimedia

Saznaj više

749,99€ Kupi

📢 Otkrij

Tablet XIAOMI Redmi Pad 2

Iskoristi akciju

199,00€ ~~209,00€~~ Kupi

Zadnji komentari na forumu

OneSpy 18. rujna 2023.

Ponovo molim autore ovakvih članaka da transformer neural networks prevode kao transformerske neuronske mreže, a ne transformatorske.

Novosti iz naše Hi-Fi slušaonice

Acoustic Energy AE320² – konačno stigli u Ronis Velesajam!

AE320² dolazi u elegantnom, tankom kućištu izrađenom od visokokvalitetnog RSC™ MDF-a s bitumenom koji značajno smanjuje rezonanciju, omogućujući čist i prirodan zvuk bez interferencija.

Kupi

-30% na vrhunski JBL Hi-Fi!

Akcija

JBL Stage Hi-Fi zvučnici i moćni JBL AV receivere

Zapanjujući stereo zvuk, snaga i moderan dizajn – sve što ti treba za pravi audio doživljaj u tvom domu.

Akcija

50th Anniversary Limited Edition.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC monitor s Falcon B110 wooferom i T27 visokotoncem, 70Hz–20kHz, 15Ω, 82.5dB, 50–80W, Golden Madrone furnir, dimenzije 305 x 190 x 165 mm.

3.439,00 € ~~4.299,00 €~~ Akcija

Iznimne performanse i svestranost.

Akcija

PARASOUND JC3+ phono pretpojačalo

Frekvencijski raspon: 20 Hz - 20 kHz, +/- 0.2 dB, THD: < 0.01% at 1 kHz, SNR, MM > 87 dB, input shorted, IHF A-weighted > 78 dB, input shorted, unweighted

3.822,00 € ~~4.778,00 €~~ Akcija

Next Generation HDI™ valovod.

Akcija

JBL Stage 250B

5.25" poliselulozni woofer, 1" anodizirani aluminijski visokotonac s HDI™ horna valovodom, 2-smjerni sustav, skretnica na 1.7kHz, frekvencijski odziv 50Hz–25kHz (±6dB), osjetljivost 86dB, impedancija 6Ω, preporučena snaga pojačala 20–150W, bass-reflex kućište s otvorom straga

349,30 € ~~499,00 €~~ Akcija

Savršen za srednje i velike sobe.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

1.189,00 € ~~1.399,00 €~~ Akcija

Bluetooth slušalice s do 24 sata trajanja baterije.

Akcija

MARLEY Positive Vibration XL

Bluetooth® 5.0 - Battery life: 32 Hours with ANC off / 26 Hours with ANC on - 40mm Hi Definition Drivers - USB-C Quick Charge 15 minute charge = 2 hours of playtime - Ultra Comfort foam ear cushions - Onboard Mic & Remote Functionality

69,98 € ~~99,00 €~~ Akcija

Aktivni zvučnik s Bluetooth aptX i NFC povezivanjem.

Akcija

WHARFEDALE DS1

100 mm bas i 20 mm visokotonac, pojačanje 7W RMS / 14W max, frekvencijski odziv 55Hz–20kHz (±3dB), osjetljivost linijskog ulaza 350mV, kontrole za glasnoću, izvor i uparivanje, 3,5 mm ulaz.

175,00 € ~~232,26 €~~ Akcija

StreamMagic Gen4 modul za steaming.

CAMBRIDGE AUDIO CXN 100

DAC ESS ES9028Q2M, podrška za PCM do 32-bit/768kHz i DSD do x512, Bluetooth 5.1, AirPlay 2, Chromecast, Roon Ready, XLR/RCA izlazi, Wi-Fi/Ethernet, potrošnja 30W, dimenzije 430 x 85 x 305 mm.

1.089,00 € Kupi

DTS Play-Fi® tehnologija.

AUDIOLAB 7000N Play

Bežični streamer s ESS ES9038Q2M DAC-om, 2.8" IPS zaslon, DTS Play-Fi, AirPlay 2, podrška za TIDAL, Qobuz, Spotify, multi-room, koaksijalni i optički izlazi, RCA, 192kHz/24-bit, THD <0.0005%, S/N >115dB, 12V trigger, LAN, dimenzije 444 x 340 x 78 mm, masa 5 kg

689,00 € Kupi

Snažno integrirano pojačalo s DAC-om.

WiiM Vibelink Amp

Klasa-D pojačalo s PFFB tehnologijom, 200W/4Ω, 100W/8Ω, DAC ESS9039Q2M, THD+N ≤0.0005%, SNR ≥120dB, frekvencijski raspon 20Hz–20kHz (±0.5dB), analogni RCA ulaz bez ADC-a, optički i koaksijalni digitalni ulazi (192kHz/24-bit), pozlaćeni zvučnički priključci, 12V trigger, auto-standby

369,00 € Kupi

KEF LSX II

Novosti

Savršeni balans vrhunskog zvuka i elegantnog dizajna

Doživi KEF LSX II uživo – posjeti nas u Ronisu na Zagrebačkom Velesajmu i uvjeri se u snagu velikog zvuka u malom formatu.

Kupi

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Trenutno najpovoljnije cijene na tržištu

Vezano

Igre

Kerbal Space Program

AI u svemiru: ChatGPT i LLaMA postaju piloti letjelica

Mladen Smrekar četvrtak

Istraživanja

šokantno istraživanje

Mogu li AI modeli doista 'razumijeti' osjećaje?

Mladen Smrekar 25. lipnja 2025.

Istraživanja

Usporedba 14 LLM-ova

Neki upiti AI izazvaju 50 puta više emisija CO2 od drugih

Mladen Smrekar 19. lipnja 2025. 2

Umjetna inteligencija

"Razmišljanje"

Koliko AI „razmišlja“ kad mu kažemo da razmišlja?

Drago Galić 13. lipnja 2025. 1

Istraživanja

značaj iskustva

Zašto AI ne može razumjeti različite pojmove na ljudski način?

Mladen Smrekar 11. lipnja 2025. 7

Znanost

Kognitivna šutnja

Naš mozak "kuži stvari" prije nego što mi to primjećujemo

Igor Berecki 7. lipnja 2025. 1