Umjetna inteligencija kao masovno kršenje autorskih prava

Generativni alati umjetne inteligencije i globalna utrka prema regulaciji i standardizaciji: { ko/p/d/iraj } me nježno ili kako megakorporacije koristeći postojeći internetski sadržaj prodaju tuđi rad kao svoje usluge

Mihael Mudrić nedjelja, 4. veljače 2024. u 12:00

UI na sudu Leonardo.AI

Trenutačno u svijetu u regulatornom i pravosudnom smislu prednjači Kina s preko 30 zakonodavnih tekstova i smjernica korištenja digitalnih alata, zaštite temeljenih (socijalističkih) vrijednosti, i kontrole sadržaja na mreži. Europa polako kroči regulatornim smjerom vodeći se čvrstim principima zaštite osobnih podataka (i drugih temeljnih europskih vrijednosti) i risk-based pristupa kategorizaciji rizika korištenja UI alata. Konačno, Amerika razmatra sektorsku saveznu regulaciju temeljenu na realnim potrebama i područjima korištenja UI alata, dok američki sudovi polako grade novi opus sudske prakse u području autorskog prava (i prava intelektualnog vlasništva) u digitalnom okruženju.

Copy-Smile-Paste-Sell

U ovom tekstu dotičemo se problematike autorskog prava u kontekstu prvih značajnijih postupaka koji se u Sjedinjenim Američkim Državama vode u vezi korištenja podatkovnih baza za strojno učenje popularnih generativnih UI alata, kao što je slučaj sa poznatim alatom Copilot. Riječ je o izrazito aktualnoj temi obzirom na dostupnost doslovno tisuća UI alata koji generiraju različite vrste sadržaja, a koji se počesto treniraju na sadržaju za koji nisu prethodno osigurana dopuštenja autora ili ishođene licencije za korištenje.

Bit tužbenog zahtjeva u predmetu J.Doe vs. GitHub, Microsoft i OpenAI predstavlja tvrdnja kako alat Copilot, bez prethodnog dopuštenja autora odnosno ishođenih licencija, koristi javno dostupan kod na način da isti koristi ne samo kako baza podataka za strojno učenje, već i kao vlastiti izlazni output (uz eventualne minimalne i sadržajno nebitne varijacije). Kako su tužitelji izravno ustvrdili u izmijenjenom i dopunjenom tužbenom zahtjevu sredinom prošle godine, Copilot predstavlja genijalnu metodu softverskog piratstva. Suprotno navedenome, GitHub je principijelno ustvrdio kako Copilot daje isključivo „sugestije“ koda, odnosno kako je svrha alata pružati ispomoć programerima na način da nadopunjava ili kreira dijelove koda koristeći kapacitete umjetne inteligencije. Tuženici su pojasnili kako implementacija filtera za prepoznavanje dupliciranja postojećeg koda (Suggestions Matching Public Code Filter) potvrđuje njihovu posvećenost zaštiti autorskog prava svih programera koji participiraju na platformi GitHub.

Tužitelji predstavljaju interese programera(-entuzijasta) koji polažu autorska prava na kod objavljen na GitHub platformi (osnovanoj 2008. godine i izrađenoj na principu otvorenog koda i dijeljenja koda) i koji svaki zasebno sadrži posebne licencije u vezi prava na njegovo korištenje. U tužbenom zahtjevu navodi se kako, zaključno do 2018. godine kada Microsoft preuzima GitHub, na platformi participira impresivna brojka od 25 miliona razvojnih programera čiji je rad zaštićen sa 13 različitih kategorija licencija.

Dvije godine kasnije, Microsoft postaje ekskluzivni nositelj licencije GPT-3 modela, a što tužitelji koriste kako bi osporili tvrdnju OpenAIa da GPT služi na dobrobit čovječanstva (da je tako, bio bi open-source i ne bi se naplaćivao za korištenje).

Alat Copilot, zajednički projekt GitHuba i OpenAIa, dodatno osnažen Codex alatom (OpenAI UI alat koji prirodni jezik pretvara u računalni kod), prema navodu tužitelja koristi kod dostupan na GitHub platformi bez pridržavanja licencijskih uvjeta kojima su open-source programi i linije koda na GitHubu zaštićeni. Konkretno, tužitelji tvrde da se tuženici koriste metodama anonimizacije koda, izbacivanja podataka o autoru i licenciji, te da kod na GitHub platformi koriste protivno uvjetima licencija (kao baza podataka za strojno učenje, kao izravan ili kozmetički izmijenjen output). Tužitelji dodatno navode kako su tuženici nakon pokretanja postupka implementirali opciju koja, kada se uključi prilikom generacije, ne pokazuje onaj kod koji temeljem provjere oko 150 znakova koda u potpunosti odgovara već postojećem kodu na GitHub platformi. No, kako tužitelji tvrde, istovremeno je razvijena tehnika minimalne izmjene takvog koda kako bi se izbjegla navedena detekcija, a što nema utjecaja na sadržajni kontekst izgeneriranog koda koji se i dalje temelji na već postojećem kodu na GitHub platformi. To u konačnici, prema navodu tužitelja, navedeni filter čini beskorisnim. Tužitelji posebno naglašavaju činjenicu kako se alat Copilot na tržištu, bez prethodnog dopuštenja autora izvornog koda objavljenog na GitHubu i bez naknade za korištenje tog koga, nudi uz novčanu naknadu (na bazi pretplatničkog modela), a što predstavlja, prema navodu tužitelja, izravnu monetizaciju tuđeg autorskog prava bez dopuštenja autora (suprotno doktrini poštenog korištenja). Obzirom da Copilot koristi Codex za svoj rad, za alat Codex, prema navodu tužitelja, vrijedi sve što je prethodno navedeno za alat Copilot.

Slijedom svega navedenoga tužitelji su izvorno i naknadno ustali sa nizom optužbi na račun tuženika: kršenje američkog saveznog Zakona o autorskim pravima digitalnog milenija (Digital Millennium Copyright Act), kršenje ugovornih odredbi postojećih licencija, kršenje općih uvjeta poslovanja, izvanugovorna ekonomska šteta, povreda tržišnog natjecanja, neopravdano bogaćenje, te propust ulaganja dužne pažnje.

Predatorske kompanije zahtjevaju predatorske pravosudne dužnosnike 📷 Leonardo.AI — Predatorske kompanije zahtjevaju predatorske pravosudne dužnosnike Leonardo.AI

Help Me Help You

Nova godina započela je ranim podsjetnikom kako saga u vezi generativne umjetne inteligencije i autorskih prava tek sazrijeva. Drugog radnog dana Nove godine, američki sudac Tigar donio je nekoliko bitnih odluka u tekućem predmetu koji se u formi kolektivne tužbe vodi protiv GitHuba (GitHub i Microsoft) i OpenAIa. Sudac je odbacio segmente tužbenog zahtjeva koji se odnose na izvanugovorne ekonomske štete, neopravdano korištenje i nelojalnu konkurenciju temeljene na pravnoj osnovi koja izvire iz kalifornijskog prava obzirom kako je materija uređena saveznim zakonodavstvom iz područja autorskog prava. Sudac je također odbacio potencijalnu povredu prethodno navedenog saveznog akta (DMCA) obzirom kako isti zahtjeva identičnu kopiju reproduciranog djela.

Postupak se, međutim i što je daleko bitnije, dalje nastava po pitanju tužbenih navoda u vezi neovlaštene monetizacije tuđeg koda i kršenja pravila licencija kojima je softver zaštićen na platformi GitHub. Dok se izvorno postupak vodio s ciljem privremene mjere zabrane poslovanja radi sprječavanja daljnje štete, nakon nove odluke suda tužitelji sada imaju mogućnost potraživati naknadu pretrpljene štete u proteklom razdoblju. Zacrtani daljnji put pravne argumentacije potencijalno počinje mirisati ne samo na neki sporazum od više stotina milijuna vrijednosti nagodbe, već i na poticaj američkom Kongresu da jače pogura zakonodavne inicijative poput novijeg No FRAUD AI Act prijedloga zakona, ili starijeg No FAKES Act prijedloga. Navedeni prijedlozi zakona, uz podsjetnik kako američko savezno zakonodavstvo po pitanju umjetne inteligencije još uvijek ne postoji (postoji niz policy dokumenata koje gura Bidenova administracija), bave se problematikom zaštite autorskog prava u svjetlu digitalnih generativnih alata umjetne inteligencije (tema za neki od narednih tekstova).

Ono što predstavlja srž problema prvenstveno se odnosi na baze podataka koje se koriste za strojno učenje. Kada je prije otprilike 20-ak godina Google počeo digitalizirati knjige, čitavo vrijeme inzistiralo se na tome kako se digitalizacija provodi da bi se bogata knjižna građa učinila dostupna u svim dijelovima svijeta. Danas, desetljećima kasnije, gotovo pa ispada kako je osnovni cilj tog projekta bilo građenje bogate LLM (large language model) baze koja će poslužiti za treniranje Google Barda, izravne konkurencije ChatGPT alatu. U različitim zemljama vodile su se i dalje se vode brojne parnice na temu povrede autorskog prava i prava izdavača u vezi onoga što Google (i brojne druge kompanije) svakodnevno i bez prekida rade. Brojni autori i izdavači, poglavito iz Europe, i dalje ustraju pri svojim stavovima da je riječ o čistoj krađi. Američki Vrhovni sud u jednom je sada već starijem predmetu utvrdio kako to što Google radi predstavlja fair use korištenje tuđih autorskih djela bez dopuštenja autora. No, kako se LLM baze, baš kao i njemačka LAION baza, sve više počinju komercijalno eksploatirati, postavlja se opravdano pitanje može li navedeni sudski presedan opstati u realnosti kojoj svjedočimo posljednjih nekoliko godina.

Drugim riječima, kada čitate tuđu knjigu na, primjerice, Google Books, bez da ste autora pitali smijete li to raditi ili ne, smatra se da pošteno koristite navedeno autorsko djelo jer isto koristite za vaše osobne potrebe. No kada na jednom monitoru imate otvorenu istu knjigu, a na drugom monitoru doslovno prepisujete sadržaj koji kasnije prodajete na, primjerice, Amazon Books, smatra se da kršite autorsko pravo, plagirate sadržaj, i predstavljate nelojalnu konkurenciju izvornom autoru odnosno izdavaču (ako je, kao što obično rade, na sebe prenio sva autorska prava). Po istoj logici, kada Google Books nudi knjige na čitanje milijardama ljudi kako bi imali pristup znanju (prvi prethodni primjer), američki presedan kaže da je to pošteno korištenje tuđeg autorskog djela bez naknade. Ali, kada Google navedenu knjigu koristi da bi trenirao svoj UI alat koji će kasnije naplaćivati za upotrebu, postavlja se opravdano pitanje treba li tražiti prethodno dopuštenje autora/izdavača knjige za korištenje knjige u bazi podataka za strojno učenje (machine learning dataset) te treba li istima ponuditi naknadu odnosno od istih ishoditi licenciju za navedeno korištenje. Danas većina masovno korištenih generativnih UI alata to ne radi, i upravo navedena činjenica predstavlja sukus svih trenutačno otvorenih postupaka (pretežito pred američkih sudovima).

Jedna baza to rule them all 📷 Microsoft Designer — Jedna baza to rule them all Microsoft Designer

O navedenoj presudi američkog Vrhovnog suda, spomenutoj LAION bazi (i povezanim predmetima koji se tiču text-to-image i text-to-text sporova), recentnoj Andy Warhol presudi (i doktrini fair use) i drugim povezanim temama biti će možda riječi u nekim drugim tekstovima, no uvodno se može zaključiti kako se tek sada, nakon 20 i nešto godina rađa svijest među širom populacijom odnosno razumijevanje onoga na što su relativno malobrojne ugrožene skupine upozoravale još prije više od jednog desetljeća. Na račun hipoteze o skrbi o javnom dobru i javnim interesima, provodi se megalomanska monetizacija svega što se, kako sam Google otvoreno kaže, može scrappati odnosno preuzeti sa mreže, neovisno o tome pristaju li vlasnici podataka na isto ili ne, odnosno znaju li uopće da se njihovi podaci koriste. Iako se mantra zaštite osobnih podataka ponavlja već dugo, dugo vremena, ispada da se o vrijednosti zaštite osobnog podataka počinje ozbiljno promišljati tek kada se veće interesene skupine nađu u situaciji da su izravno ugroženi nelojalom konkurencijom. Danas velike skupine umjetnika ustaju kolektivnim tužbama protiv StableDiffusiona, DevianArta i Midjourneya, Sancton i Silverman traže zaštitu svojih pisanih tekstova, New York Times (koji je ustao sa sporom protiv OpenAIa) i drugi veliki izdavači blokiraju pristup ChatGPTu svojim bazama (a što, posljedično, dovodi i do potencijalnog biasa (pristranosti) u outputu navedenog alata obzirom na ograničenu bazu dostupnih informacija), i sl.

Kolektivne tužbe u SAD-u

Kolektivna tužba (class action) predstavlja mehanizam koji je prilično zastupljen u američkom pravosuđu i predstavlja mogućnost da se u jednom postupku donese odluka koja će vrijediti za brojne osobe koje imaju određenu osnovu za potraživanje naknade štete. U predmetu Copilot kolektivna tužba odnosi se na sve autore koda sa platforme GitHub čiji se kod potencijalno koristi odnosno, prema navodu tužitelja, zloupotrebljava od strane alata Copilot.

Dobar i jedan od skupljih primjera kolektivne tužbe je postupak koji se vodio protiv British Petroleuma zbog katastrofe u Meksičkom zaljevu na plaftormi Deepwater Horizon. Sporazum koji je na kraju postignut omogućio je da svaki građanin pet saveznih država koji je u vrijeme nesreće živio u priznatim geografskim zonama (u području Zaljeva) na svoj račun zaprimi određeni iznos novca na ime naknade pretrpljene štete (automatski obuhvat svih potencijalnih tužitelja u kolektivnu tužbu). Riječ je o relativno malim iznosima obzirom da je broj obuhvaćenih oštećenika bio ogroman, ali realno najveći broj njih nikada ne bi ni ulazio u postupak protiv moćnog BP-a. Ako je netko ipak uvjeren u svoju pobjedu i ima dovoljno novaca, može izjaviti opt-out iz spora (odluka o istupanju iz obuhvata kolektivne tužbe) i time osigurati vlastito pravo na sudbeni epilog. U Europi ovaj mehanizam počiva na principu opt-in, i nije pretjerano korišten.

Autor ovoga teksta prije godinu-dvije zaprimio je e-mail od kompanije Apple u kojem su mu se ispričali radi nekog svog propusta i ponudili naknadu od 42 centa temeljem sporazuma postignutog u nekom class action postupku. Ponuda naknade je proizašla iz činjenice da sam bio ponosni vlasnik prve verzije iPhonea (i onog jailbreak pwnage ananasa), i da sam imao korisnički račun na iTunesu storeu. No, naknada je bila vezana uz moj korisnički račun u kojem je bilo potrebno navesti i fizičku adresu. Ispalo je, a ja se toga više ne sjećam, da sam pukim slučajem i sasvim slučajno kao adresu naveo neku nepoznatu adresu u nekom nepoznatom američkom gradu (ni sam ne znam zašto, pretpostavljam lapsus lingua), a što je čini se dovelo do toga da u to vrijeme imam pristup američkom iTunes storeu (čega, koliko se sjećam, a ne sjećam se, nisam bio ni svjestan). Toliko o mojih pola dolara koje mogu claimati samo uz predočenje dokaza da sam zaista prebivao na navedenoj adresi (has been pwned ishod).

Kako je kompanija Uber istaknula još davne 2011. godine u svom White Policy Paperu koji kasnije nisu uspjeli trajno ukloniti sa mreže, disrupcija tržišta temelji se isključivo na korištenju svih dostupnih mehanizama nelojalne konkurencije kako bi se uspostavio monolop na tržištu. Disrupcija je osmišljena tako da bude primamljiva, moderna, jednostavnoga sučelja i jasno iskazane koristi, no iza kulise počiva na kratkoročnim ili dugoročnim zahtjevima ostvarivanja profita. Kada je podloga tehnološke disrupcije izrazito snažna, kao što je riječ sa generativnim UI alatima, spill-over efekt korištenja tehnologije ulazi u sve pore života stotina milijuna ljudi koji takve alate svakodnevno koriste. Samim time, problematika ove tehnologije postaje puno značajnija od problematike zaštite autorskog prava, o čemu će svakako biti puno riječi u ovoj kolumni.

Navedena problematika izrazito je aktualna u kontekstu zakonodavnih nastojanja da se, barem okvirno, uredi i ovaj segment digitalnog tržišta. Primjerice, uloga generativnih UI alata prepoznata je i tijekom rasprava o tekstu predložene europske Uredbe o umjetnoj inteligenciji na način da je usvojen prijedlog Europskog parlamenta da se u tekst Nacrta Uredbe ubaci sasvim novi segment koji se bavi probematikom generativnih UI alata u kontekstu zaštite temeljenih europskih vrijednosti i zaštite autorskih prava. Kako se u narednom razdoblju očekuje usvajanje konačnog teksta navedene Uredbe, svakako će se priprediti nekoliko tekstova i na ovu, svima jako interesantnu i bitnu temu.

Odmetnuta UI tipka 📷 Microsoft Designer — Odmetnuta UI tipka Microsoft Designer

GitHub u sporu

Potencijalno paradoksalno (ovisno o tome kakav će biti ishod sudskog postupka) grupacije programera-entuzijasta, poput FOSS Community United (Free and Open Source Software Community United) otvoreno podravljaju mogućnost open-source softvera da revolucionizira svijet tehnologije (doslovni citat). Iako su ispravno naslučivali revoluciju u svijetu tehnologije, za pretpostaviti je kako nisu razmišljali o žrtvama revolucije. Be careful what you wish for.

Interesantno je za primjetiti kako je GitHub u prijašnjoj verziji FAQa napisao kako kod koji korisnici pišu korištenjem Copilot alata pripada njima te kako korisnici za isti odgovaraju. Klasična klauzula izuzeća od odgovornosti koja često ne prolazi sudsku evaluaciju, te koja predstavlja bitan segment spora u kojem se GitHub platforma našla.

Mihael Mudrić je izvanredni profesor na Pravnom fakultetu Sveučilišta u Zagrebu gdje predaje teme iz područja prometnog prava, prava osiguranja, energetskog prava i prava privatne zaštite. Posebno se bavi problematikom regulacije umjetne inteligencije u kontekstu privatne i javne sigurnosti, automatizacije vožnje u svim modalitetima prijevoza, i zaštite osobnih podataka. Sudjelovao je na više međunarodnih znanstvenih projekata uključujući HORIZON 2020, aktivan je član međunarodne radne skupine za autonomna plovila pri Međunarodnom pomorskom odboru, i predstavnik je Republike Hrvatske pri Međunarodnoj pomorskoj organizaciji u Zajedničkoj radnoj skupini za autonomna plovila. Potpredsjednik je Hrvatskog društva za pomorsko pravo, arbitar pri Arbitražnom sudištu HGK, i član Instituta za sigurnosne politike. Doktorirao je na Max Planck institutu i Pravnom fakultetu Sveučilišta u Hamburgu, Hamburg, Njemačka.

Vezano

Zadnji komentari na forumu

Damir22 5. veljače 2024.

bla,srac,truc, a sve se (opet) svodi na kukanje kako se neciji djepovi ne pune (dovoljno) novcima....

Space Cadet 5. veljače 2024.

A šta je s ljudima koji se "treniraju" na istim tim sadržajima kao AI? Mladi wannabe novinar čita New York Times, kompjuterima oduševljeni teenager proučava kod s GitHub-a, a kasnije kad počnu raditi prodaju to znanje. Da li i oni onda krše autorska prava? Ne vidim veliku razliku, osim što mašine to...

konjRR 4. veljače 2024.

Zakonima je to sve definirano odavno. Problem je primjene koja, kada su u pitanju velike korporacije i slicni igraci, kasni oteze i glumi se izgubljen. Dobro da su dosli na red konacno. Mozda.

memulica 4. veljače 2024.

U engleskom jeziku ima izraz 'the genie is out of the bottle', a koji vrlo dobro opisuje ovakve situacije. Po meni sve te napredne algoritme treba standardizirati u jedan javni, a ovim bahatim korporacijama što se opiru zaprijetiti nacionalizacijom i dugotrajnim zatvorskim kaznama.

mpapec 4. veljače 2024.

Autorska prava ne zanima da li je netko pjeske koristio sporni izvornik ili je za to koristen neki alat za automatizaciju. Welcome to the law.

Sniženje do -40%

Vrhunski hi-fi zvuk uz najbolje popuste!

Za potpuni doživljaj i profesionalno savjetovanje, posjetite našu Ronis slušaonicu na Velesajmu i osobno isprobajte Hi-Fi sustave uživo!

Kupi

Uni-Q driver s MAT™ tehnologijom.

Akcija

KEF Q7 Meta

Trosistemski bass-reflex zvučnik s Uni-Q driverom, frekvencijski raspon 39 Hz – 20 kHz, osjetljivost 87 dB, impedancija 4 Ω, preporučena snaga pojačala 15 – 200 W

1.279 € ~~1.599 €~~ Akcija

Donose pravi DALI Hi-Fi zvuk u svaki prostor.

Izbor kupaca

DALI KUPID Black Ash

Frekvencijski raspon: 63 – 25.000 Hz (±3 dB), osjetljivost: 83 dB, mominalna impedancija: 4 Ohma, Preporučena snaga pojačala: 40 – 120 W, Frekvencija skretnice: 2.100 Hz, Tip kućišta: Bass reflex

338 € Kupi

Uključena Pick it MM E zvučnica

PRO-JECT E1.2, , PICK IT, MM

Gramofon s elektroničkom promjenom brzine 33/45 o/min i remenskim pogonom, omjer signal/šum 65 dB, wow & flutter do ±0,23 %, ručka 218,5 mm / 7 g, potrošnja 4,5 W,

329 € Kupi

Spaja bezvremenski dizajn s vrhunskom akustičnom tehnologijom.

KEF Coda W Dark Titanium

Podržava Bluetooth 5.4 s aptX Adaptive i aptX Lossless, ima phono ulaz za gramofon, USB-C, AUX ulaz te izlaz za subwoofer, što omogućuje jednostavno proširenje sustava. Bilo da slušate streaming, vinil, s računala ili TV, sve se spaja izravno na zvučnike.

899 € Kupi

Visokoučinkovito pojačalo za streaming.

Bluesound PowerNode N331

Sa 100 W po kanalu, HDMI eARC priključkom i BluOS™ podrškom za više prostorija, spaja pravi HiFi doživljaj s modernom praktičnošću. Bilo da ga koristite za glazbu, filmove ili oboje, dizajniran je da pojednostavi vaš sustav bez kompromisa u kvaliteti zvuka.

1.049 € Kupi

Premium 32-bitni DAC

Izbor kupaca

WiiM Ultra

Mrežni audio streamer s DAC-om visoke rezolucije, podrška za streaming servise i lokalnu mrežu, Wi-Fi i Ethernet povezivanje, Bluetooth, HDMI ARC i analogni/digitalni ulazi i izlazi, upravljanje putem aplikacije i zaslona osjetljivog na dodir, kompaktne dimenzije i niska potrošnja energije.

399 € Kupi

Posjetite našu Hi-Fi slušaonicu.