BLOOM: prvi višejezični model otvorenog koda ručno treniran

Tisuću uglavnom akademskih volontera iz cijelog svijeta udružilo se kako bi razbili dominaciju Big Techa u procesu obrade prirodnog jezika i smanjii nastalu štetu

Mladen Smrekar petak, 24. lipnja 2022. u 06:30

Velike tehnološke tvrtke sve više koriste modele koji prepoznaju i generiraju jezik u aplikacijama od chat robota do prevoditelja i mogu zvučati toliko jezivo ljudski da je Googleov inženjer nedavno ustvrdio da je tvrtkin UI model - razuman. Ali takvi modeli istovremeno pate od ozbiljnih praktičnih i etičkih nedostataka, kao što je papagajsko ponavljanje ljudskih pristranosti.

Štetni učinci UI jezičnih sustava

Organizacija BigScience prošli je tjedan pokrenula ranu verziju modela koji bi, nadaju se njegovi tvorci, trebao smanjiti štetne učinke jezičnih sustava umjetne inteligencije. Osim što je riječ o alatu za istraživanje umjetne inteligencije, Njihov BLOOM bit će otvoren za niz istraživačkih namjena, poput vađenja informacija iz povijesnih tekstova i izrade klasifikacija u biologiji.

Istraživači su osobno odabrali gotovo dvije trećine svog skupa podataka od 341 milijarde riječi iz 500 izvora

“Smatramo da je pristup modelu bitan korak za odgovorno strojno učenje”, kaže Thomas Wolf, suosnivač tvrtke Hugging Face, domaćina platforme otvorenog koda za UI modele i skupove podataka na kojoj je radio međunarodni tim od oko tisuću volontera, uglavnom akademika.

Strojevi za učenje

Veliki jezični modeli su algoritmi koji uče statističke povezanosti između milijardi riječi i izraza za obavljanje zadataka kao što su generiranje sažetaka, prevođenje, odgovaranje na pitanja i klasificiranje teksta.

Hugging Face, domaćin platforme otvorenog koda za UI modele i skupove podataka

Izgrađeni pomoću neuronske mreže, modeli se treniraju prilagođavanjem parametara, brisanjem riječi i uspoređivanjem njihovih predviđanja sa stvarnošću. BLOOM ima 176 milijardi parametara, u rangu s GPT-3, jednim od najpoznatijih takvih modela koji je kreirala neprofitna tvrtka OpenAI i licencirao Microsoft.

Iako su takvi modeli ponekad impresivni pa stvaraju poeziju ili točno odgovaraju na trivijalna pitanja, oni nemaju osjećaj za značenje jezika. Zbog toga oni mogu promovirati zlostavljanje, rasizam ili seksizam.

Ručno odabrani tekstovi

Dok većinu modela na prirodnom jeziku grade mali interni timovi, BLOOM je djelo stotina istraživača, uglavnom akademika, uključujući etičare, pravne znanstvenike i filozofe, ali i neke zaposlenike Facebooka i Googlea. Kako bi trenirao BLOOM, BigScience je dobio besplatan pristup francuskom nacionalnom superračunalu Jean Zay.

BigScience je dobio besplatan pristup francuskom nacionalnom superračunalu Jean Zay

Modeli su dobri onoliko koliko su dobri skupovi podataka na kojima se temelje pa je glavni zadatak bio odabir tekstova iz kojih bi model trebao učiti. Većina velikih modela uzima jezik izravno s interneta.

Umjesto toga, istraživači BigSciencea osobno su odabrali gotovo dvije trećine svog skupa podataka od 341 milijarde riječi iz 500 izvora. Među njima bio je i Semantic Scholar, tražilica za akademske publikacije s UI podrškom koja uključuje i članke časopisa Nature.

Doprinos različitih kultura

Izvori su predloženi tijekom niza radionica u kojima su sudjelovale razne organizacije, poput afričke zajednice za obradu prirodnog jezika Masakhane, LatinX in AI ili Machine Learning Tokyo. Time se htjelo osigurati da u obuku modela bude uključeno što više ljudi različitih kultura.

Kako bi u potpunosti iskoristio dostupnu računalnu snagu, tim je zalihe podataka dopunio pomoću višejezičnog indeksiranja weba, filtriranog zbog kvalitete i s malo redakcije radi privatnosti.

Smanjili su i uobičajenu preveliku zastupljenost porno stranica koje često dovode do seksističkih asocijacija u modelu, ali bez isključivanja ključnih riječi koje bi posve uklonile sadržaj.

Stereotipne asocijacije

Dakako da ni BLOOM neće biti bez predrasuda, svjesni su njegovi tvorci, ali bi trebao poboljšati postojeće modele. Ono što je najvažnije, budući da su kod i skup podataka iza modela otvoreni, istraživači mogu pokušati razumjeti korijene štetnog ponašanja, što bi, pak, moglo poboljšati buduće verzije.

Upotreba obvezuje istraživače da ne koriste model u zlonamjerne ili neprikladne svrhe poput stvaranja lažnih vijesti

Evaluacija modela razlikovat će se od uobičajenih mjerila. Istraživači žele proučiti različite metrike, poput toga koliko snažno stvara određene stereotipne asocijacije ili koliko su njegove sposobnosti pristrane prema određenom jeziku. Budući da je model obučen da bude višejezičan, mogao bi imati dublje razumijevanje jezika.

Besplatno korištenje

Potpuno obučeni BLOOM model bit će dostupan za preuzimanje istraživačima koji žele eksperimentirati s njim ili ga trenirati na novim podacima za određene aplikacije. Ali njegovo preuzimanje i pokretanje zahtijeva značajan hardverski kapacitet. Budući da je to dostupno tako malom broju istraživačkih timova,

Organizacije koje su sudjelovale u projektu

BigScience će objaviti i hardverski manje zahtjevne verzije i izgraditi sustav koji će omogućiti dijeljenje modela na serverima, a Hugging Face će objaviti i web aplikaciju koja će svakome omogućiti da upita BLOOM bez preuzimanja.

Vezano

📢 Uštedi

Laptop ASUS VivoBook 15

Sniženo

449,99€ ~~489,99€~~ Kupi

📢 Uštedi

HONOR Magic 7 Lite

Uhvati priliku

349,99€ ~~399,99€~~ Kupi

📢 Uštedi

Monitor 32" SAMSUNG

Provjeri odmah

379,99€ ~~439,99€~~ Kupi

📢 Uštedi

Digitalni fotoaparat NIKON Z30 + 12-28VR

Na popustu

999,99€ ~~1.199,99€~~ Kupi

📢 Otkrij

Ruksak za laptop OCTIO Essentials MultiPack

Provjeri odmah

14,99 € ~~19,99€~~ Kupi

📢 Uštedi

Električni romobil XIAOMI Electric Scooter 4 Lite (2nd Gen)

Uhvati uštedu

299,99€ ~~359,99€~~ Kupi

📢 Otkrij

Računalo LINKS Multimedia

Saznaj više

749,99€ Kupi

📢 Otkrij

Tablet XIAOMI Redmi Pad 2

Iskoristi akciju

199,00€ ~~209,00€~~ Kupi

Zadnji komentari na forumu

Van Nistelrooy 24. lipnja 2022.

Rasprava je otišla u neočekivanom smjeru. Kad ćemo se vratit na '41 i '45?

NathanDrek 24. lipnja 2022.

Ovdje sam jer sam mislio da se radi o malome od Šuputice, reko kaj mali sad napravio, jel se pokakao, pojeo frutek...

BlueMax 24. lipnja 2022.

Za tebe - gospodin Ajar. Čovjek na pet bezveznih fora izbaci jednu vrhunsku. Prosjek puno bolji od većine. Zato mi je među omiljenima.Svađalice nitko ne voli. Shodno tome...

BlueMax 24. lipnja 2022.

Eto vidiš, ne znaš ko si a tu bi nešto mudrovao.

BlueMax 24. lipnja 2022.

Točno sam znao čiji će biti prvi komentar i kakav će biti. :)

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

-30% na vrhunski JBL Hi-Fi!

Akcija

JBL Stage Hi-Fi zvučnici i moćni JBL AV receivere

Zapanjujući stereo zvuk, snaga i moderan dizajn – sve što ti treba za pravi audio doživljaj u tvom domu.

Akcija

50th Anniversary Limited Edition.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC monitor s Falcon B110 wooferom i T27 visokotoncem, 70Hz–20kHz, 15Ω, 82.5dB, 50–80W, Golden Madrone furnir, dimenzije 305 x 190 x 165 mm.

3.439,00 € ~~4.299,00 €~~ Akcija

Iznimne performanse i svestranost.

Akcija

PARASOUND JC3+ phono pretpojačalo

Frekvencijski raspon: 20 Hz - 20 kHz, +/- 0.2 dB, THD: < 0.01% at 1 kHz, SNR, MM > 87 dB, input shorted, IHF A-weighted > 78 dB, input shorted, unweighted

3.822,00 € ~~4.778,00 €~~ Akcija

Next Generation HDI™ valovod.

Akcija

JBL Stage 250B

5.25" poliselulozni woofer, 1" anodizirani aluminijski visokotonac s HDI™ horna valovodom, 2-smjerni sustav, skretnica na 1.7kHz, frekvencijski odziv 50Hz–25kHz (±6dB), osjetljivost 86dB, impedancija 6Ω, preporučena snaga pojačala 20–150W, bass-reflex kućište s otvorom straga

349,30 € ~~499,00 €~~ Akcija

Savršen za srednje i velike sobe.

Akcija

ACOUSTIC ENERGY AE309

2.5-sistemski zvucnici sa 130mm mid-bass jedinicama i 28mm aluminijskim visokotoncem, frekvencijski raspon 38Hz -30kHz, osjetljivost 89dB, vršni SBL 115dB, snaga 175W, crossover frekvencija 296Hz / 2.56kHz, impedancija 6 ohma.

1.189,00 € ~~1.399,00 €~~ Akcija

Bluetooth slušalice s do 24 sata trajanja baterije.

Akcija

MARLEY Positive Vibration XL

Bluetooth® 5.0 - Battery life: 32 Hours with ANC off / 26 Hours with ANC on - 40mm Hi Definition Drivers - USB-C Quick Charge 15 minute charge = 2 hours of playtime - Ultra Comfort foam ear cushions - Onboard Mic & Remote Functionality

69,98 € ~~99,00 €~~ Akcija

Aktivni zvučnik s Bluetooth aptX i NFC povezivanjem.

Akcija

WHARFEDALE DS1

100 mm bas i 20 mm visokotonac, pojačanje 7W RMS / 14W max, frekvencijski odziv 55Hz–20kHz (±3dB), osjetljivost linijskog ulaza 350mV, kontrole za glasnoću, izvor i uparivanje, 3,5 mm ulaz.

175,00 € ~~232,26 €~~ Akcija

StreamMagic Gen4 modul za steaming.

CAMBRIDGE AUDIO CXN 100

DAC ESS ES9028Q2M, podrška za PCM do 32-bit/768kHz i DSD do x512, Bluetooth 5.1, AirPlay 2, Chromecast, Roon Ready, XLR/RCA izlazi, Wi-Fi/Ethernet, potrošnja 30W, dimenzije 430 x 85 x 305 mm.

1.089,00 € Kupi

DTS Play-Fi® tehnologija.

AUDIOLAB 7000N Play

Bežični streamer s ESS ES9038Q2M DAC-om, 2.8" IPS zaslon, DTS Play-Fi, AirPlay 2, podrška za TIDAL, Qobuz, Spotify, multi-room, koaksijalni i optički izlazi, RCA, 192kHz/24-bit, THD <0.0005%, S/N >115dB, 12V trigger, LAN, dimenzije 444 x 340 x 78 mm, masa 5 kg

689,00 € Kupi

Snažno integrirano pojačalo s DAC-om.

WiiM Vibelink Amp

Klasa-D pojačalo s PFFB tehnologijom, 200W/4Ω, 100W/8Ω, DAC ESS9039Q2M, THD+N ≤0.0005%, SNR ≥120dB, frekvencijski raspon 20Hz–20kHz (±0.5dB), analogni RCA ulaz bez ADC-a, optički i koaksijalni digitalni ulazi (192kHz/24-bit), pozlaćeni zvučnički priključci, 12V trigger, auto-standby

369,00 € Kupi

KEF LSX II