Umjetna inteligencija plagira prethodno naučeni sadržaj. Šta još ima novo?

Noviji modeli Llame skloniji prepisivanju gotovo čitavih knjiga na kojima su trenirani, a plagiranju su podložniji popularniji naslovi

Drago Galić utorak, 24. lipnja 2025. u 17:02

Nedavno istraživanje, provedeno od strane tima računalnih znanstvenika i pravnih stručnjaka sa Stanforda, Cornella i Sveučilišta West Virginia, donosi iznenađujuće uvide u sposobnost AI modela da reproduciraju doslovne izvatke iz zaštićenog sadržaja.

Studija se fokusirala na pet popularnih otvorenih modela (tri iz Mete, te po jedan iz Microsofta i EleutherAI-ja) i njihovu sposobnost reprodukcije teksta iz Books3, zbirke knjiga koja se široko koristi za treniranje velikih jezičnih modela (LLM-ova), a mnoge od tih knjiga su još uvijek pod autorskim pravima. Najviše je iznenadilo otkriće (kako koga…) da je Metin Llama 3.1 70B, objavljen u srpnju 2024., daleko skloniji reproduciranju teksta iz knjige "Harry Potter i kamen mudraca" od bilo kojeg od ostala četiri modela. Procjenjuje se da je Llama 3.1 70B zapamtio 42 posto prve knjige o Harryju Potteru dovoljno dobro da reproducira izvatke od 50 tokena u najmanje polovici slučajeva.

Zanimljivo je da je Llama 1 65B, model slične veličine objavljen u veljači 2023., zapamtio samo 4,4 posto iste knjige. To sugerira da Meta, unatoč potencijalnoj pravnoj odgovornosti, nije učinila mnogo kako bi spriječila memorizaciju tijekom treniranja Llama 3 modela, barem za ovu knjigu. Problem se značajno pogoršao između Llama 1 i Llama 3. Istraživači su otkrili da je Llama 3.1 70B mnogo vjerojatnije sklon reproduciranju popularnih knjiga, poput "Hobita" i "1984" Georgea Orwella, nego manje poznatih. Za većinu knjiga, Llama 3.1 70B zapamtio je više od bilo kojeg drugog modela.

Ovi rezultati daju argumente objema stranama u raspravi o autorskim pravima u AI-ju. Kritičari AI industrije mogu istaknuti da memorizacija nije marginalna pojava, barem za neke modele i knjige. S druge strane, studija je otkrila značajnu memorizaciju samo za nekoliko popularnih knjiga. Na primjer, Llama 3.1 70B zapamtio je samo 0,13 posto romana "Sandman Slim" Richarda Kadreyja. Ova divergentna otkrića mogu dovesti u pitanje mogućnost udruživanja autora u masovne tužbe, što bi moglo ići u prilog Meti, budući da većina autora nema resurse za pojedinačne tužbe.

Istraživači su mjerili memorizaciju izračunavanjem vjerojatnosti da model reproducira određeni slijed tokena. Ako model generira 50 tokena iz zaštićenog djela, to je snažan dokaz da su ti tokeni "došli iz" podataka za treniranje, čak i ako se to događa rijetko.

Iako istraživanje snažno dokazuje da su značajni dijelovi "Harryja Pottera i kamena mudraca" kopirani u težine Llama 3.1 70B, ne objašnjava zašto se to dogodilo. Jedno od objašnjenja može biti da je Llama 3 70B treniran na 15 bilijuna tokena, što je više od 10 puta više od 1,4 bilijuna tokena korištenih za treniranje Llama 1 65B. Što se model više puta trenira na određenom primjeru, to je vjerojatnije da će ga zapamtiti. Moguće je da je Meta imala problema s pronalaženjem 15 bilijuna različitih tokena, pa je više puta trenirala na Books3 skupu podataka, ili je dodala izvore trećih strana koji su uključivali citate iz popularnih knjiga.

Postoje tri teorije o tome kako treniranje modela na zaštićenim djelima može kršiti autorska prava: inherentno kršenje zbog digitalne kopije, model kao izvedeno djelo, te kršenje kada model generira zaštićeni sadržaj. Iako industrija AI-ja tvrdi da je korištenje zaštićenih djela tijekom treniranja poštena upotreba, činjenica da Llama 3.1 70B memorizira velike dijelove "Harryja Pottera" mogla bi utjecati na sudove. Sposobnost jezičnih modela da reproduciraju značajne dijelove popularnih djela dovode u pitanje tvrdnje o „poštenoj upotrebi“ autorskih djela kod treniranja umjetne inteligencije.

Ovo istraživanje također stvara veću opasnost za Metu prema teoriji da je Llama sama po sebi izvedena kopija Rowlingine knjige.

Vezano

📢 Provjeri

Monitor 23.8" XIAOMI Mi 1C

Sniženo 20%

79,99€ ~~99,99€~~ Kupi

📢 Otkrij

Laptop LENOVO IdeaPad 1

Uhvati priliku

479,99€ ~~599,99€~~ Kupi

📢 Uštedi

Pametni sat HUAWEI Watch Fit 3

Provjeri odmah

139,99€ ~~169,99€~~ Kupi

📢Provjeri

Digitalni fotoaparat NIKON Z30 + 12-28VR

Na popustu

999,99€ ~~1.199,99€~~ Kupi

📢 Otkrij

Ruksak za laptop OCTIO Essentials MultiPack

Provjeri odmah

~~19,99€~~ Kupi

📢 Uštedi

Električni romobil XIAOMI Electric Scooter 4 Lite (2nd Gen)

Uhvati uštedu

299,99€ ~~359,99€~~ Kupi

Zadnji komentari na forumu

zzib prije 5 sati

'činjenica da Llama 3.1 70B memorizira velike dijelove "Harryja Pottera" mogla bi utjecati na sudove. Sposobnost jezičnih modela da reproduciraju značajne dijelove popularnih djela dovode u pitanje tvrdnje o „poštenoj upotrebi“ autorskih djela kod treniranja umjetne inteligencije.' ...

HCMAA prije 7 sati

Za sada znamo da radi sve ča i prava inteligencija...još da se krene baviti politikom i to je onda to AI Demokratska Zajednica

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Originalne BBC komponente i autentični topli zvuk.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC monitor, Falcon B110 niskotonac, Falcon T27 visokotonac, ručno rađeni skretnica FL6/23, frekvencijski odziv 70 Hz – 20 kHz, impedancija 15 Ω, osjetljivost 82.5 dB, snaga 50–80 W, kabinet Baltik ply, BBC Tygan mrežica, Golden Madrone furnir.

3.439 € ~~4.299 €~~ Akcija

Vrhunsko integrirano pojačalo s Hypex nCore tehnologijom.

Akcija

Pojačalo NAD C 399

Snaga 180 W (8/4 Ω), dinamička snaga do 506 W (2 Ω), THD <0.02%, S/N omjer >95 dB, frekvencijski odziv ±0.3 dB (20 Hz–20 kHz), razdvajanje kanala >90 dB, ulazna osjetljivost 201 mV, Bluetooth podrška do 24-bit / 192 kHz.

1.869 € ~~2.199 €~~ Akcija

Čist i precizan zvuk.

Akcija

ACOUSTIC ENERGY AE309

38Hz–30kHz, 89dB osjetljivost, 115dB vršni SPL, 175W snaga, 6 ohma impedancija, 2.5-stazni dizajn, dimenzije 900×175×280 mm, masa 22 kg.

1.274 € ~~1.499 €~~ Akcija

Potpuna imerzija u zvuku.

Akcija

Soundbar BOSE Smart

Dolby Atmos, A.I. način dijaloga, Wi-Fi i Bluetooth 5.0, Bluetooth domet 30 stopa, upravljanje putem Bose aplikacije.

499 € ~~579 €~~ Akcija

Vrhunska udobnost i neusporedivi zvuk bez buke.

Akcija

BOSE QuietComfort Ultra Headphones

Bežične, ANC, Bluetooth 5.3, do 24h baterija, brzo punjenje, multipoint, adaptivni mikrofon, USB-C, Bose CustomTune, Google Fast Pair, ergonomski dizajn.

450 € ~~519 €~~ Akcija

Premium zvuk, udobnost i ANC.

Akcija

BOWERS & WILKINS PX7 S2e

Hybrid Noise Cancellation, Ambient Pass-Through, Bluetooth 5.2 s aptX Adaptive, USB-C punjenje, 2 x 40mm bio cellulose driveri, 6 mikrofona, trajanje baterije do 30 sati, brzo punjenje.

219 € ~~249 €~~ Akcija

Prirodni zvuk, visoka jasnoća i čvrst bas.

Akcija

KEF Q150

Izložbeni model, 2-way bass reflex, 86dB osjetljivost, 51Hz–28kHz frekvencijski odziv, 108dB max izlaz, 10–100W pojačalo, 8 Ohma impedancija, 130mm Uni-Q driver.

349 € ~~499 €~~ Akcija

Vrhunski zvuk za kućno kino i glazbu.

MARANTZ Cinema 70s

7.2-kanalni A/B pojačalo s 50 W po kanalu, Dolby Atmos i DTS:X, 6 HDMI ulaza (8K podrška), HEOS multi-room streaming, Bluetooth, AirPlay 2 i podrškom za Spotify, TIDAL i Amazon Music.

729,00 € Kupi

Serija Motion Foundation®.

MARTIN LOGAN Motion Foundation B1

2-smjerni zvučnik s 5,5” aluminijskim wooferom i Gen2 Folded Motion® tweeterom (0,94” x 1”). Frekvencijski raspon 48 Hz – 23 kHz, osjetljivost 89 dB, impedancija 5 Ω. Preporučena snaga pojačala 15-100 W. Dimenzije: 34,6 x 18,4 x 24 cm.

809 € Kupi

Visokoučinkovito diskretno pojačalo sa sedam kanala.

DENON AVR-X1800 DAB

Denon AVR-X1800H DAB AV receiver, 7 kanalno pojačalo, Audyssey kalibracija zvuka, FM, DAB+ i Internet radio, integriran Heos.

589 € Kupi

Novosti iz naše Hi-Fi slušaonice

Novosti

Acoustic Energy nova serija 300 - model 309.2

Acoustic Energy je nedavno predstavio evoluciju svoje srednje serije 300, sada s modelima s brojem 2 u eksponentu. 3002, 3092, veći podni zvučnici 3202 te zidni ili centralni 3072.

Kupi

Preporučamo

Izdavaštvo

Digitalno outdoors izdanje

Posebni prilog "bugout" je od danas svima dostupan

Miro Rosandić 19. lipnja 2025.

Trenutno najpovoljnije cijene na tržištu

Vezano

Biznis

Opcija je i povratak na staro

Propada li Metina vizija transformacije u AI tehnološkog giganta?

Ivan Podnar 28. svibnja 2025. 1

Umjetna inteligencija

Problemi u razvoju

Metin moćni AI super model "Behemoth" zapeo u razvoju, odgođeno predstavljanje

Bug.hr 16. svibnja 2025.

Komentar

Neovlašteno "posuđivanje" ideja

Doba ponosnih plagijatora

Oton Ribić 10. svibnja 2025. 11

Parnice

Pošteno ili korisno?

Treniranje Llame i autorska prava – ne baš posve poštena uporaba tuđih dijela

Drago Galić 5. svibnja 2025.

Umjetna inteligencija

Šira dostupnost uskoro

Meta izdala API za razvoj rješenja temeljenih na Llama modelima

Bug.hr 1. svibnja 2025.

Umjetna inteligencija

Razvoj softvera

Nadella: Umjetna inteligencija piše do 30% Microsoftovog koda

Bug.hr 30. travnja 2025. 3