Umjetna inteligencija kao masovno kršenje autorskih prava

Generativni alati umjetne inteligencije i globalna utrka prema regulaciji i standardizaciji: { ko/p/d/iraj } me nježno ili kako megakorporacije koristeći postojeći internetski sadržaj prodaju tuđi rad kao svoje usluge

Mihael Mudrić nedjelja, 4. veljače 2024. u 12:00
UI na sudu 📷 Leonardo.AI
UI na sudu Leonardo.AI

Trenutačno u svijetu u regulatornom i pravosudnom smislu prednjači Kina s preko 30 zakonodavnih tekstova i smjernica korištenja digitalnih alata, zaštite temeljenih (socijalističkih) vrijednosti, i kontrole sadržaja na mreži. Europa polako kroči regulatornim smjerom vodeći se čvrstim principima zaštite osobnih podataka (i drugih temeljnih europskih vrijednosti) i risk-based pristupa kategorizaciji rizika korištenja UI alata. Konačno, Amerika razmatra sektorsku saveznu regulaciju temeljenu na realnim potrebama i područjima korištenja UI alata, dok američki sudovi polako grade novi opus sudske prakse u području autorskog prava (i prava intelektualnog vlasništva) u digitalnom okruženju.

Copy-Smile-Paste-Sell

U ovom tekstu dotičemo se problematike autorskog prava u kontekstu prvih značajnijih postupaka koji se u Sjedinjenim Američkim Državama vode u vezi korištenja podatkovnih baza za strojno učenje popularnih generativnih UI alata, kao što je slučaj sa poznatim alatom Copilot. Riječ je o izrazito aktualnoj temi obzirom na dostupnost doslovno tisuća UI alata koji generiraju različite vrste sadržaja, a koji se počesto treniraju na sadržaju za koji nisu prethodno osigurana dopuštenja autora ili ishođene licencije za korištenje.

Bit tužbenog zahtjeva u predmetu J.Doe vs. GitHub, Microsoft i OpenAI predstavlja tvrdnja kako alat Copilot, bez prethodnog dopuštenja autora odnosno ishođenih licencija, koristi javno dostupan kod na način da isti koristi ne samo kako baza podataka za strojno učenje, već i kao vlastiti izlazni output (uz eventualne minimalne i sadržajno nebitne varijacije). Kako su tužitelji izravno ustvrdili u izmijenjenom i dopunjenom tužbenom zahtjevu sredinom prošle godine, Copilot predstavlja genijalnu metodu softverskog piratstva. Suprotno navedenome, GitHub je principijelno ustvrdio kako Copilot daje isključivo „sugestije“ koda, odnosno kako je svrha alata pružati ispomoć programerima na način da nadopunjava ili kreira dijelove koda koristeći kapacitete umjetne inteligencije. Tuženici su pojasnili kako implementacija filtera za prepoznavanje dupliciranja postojećeg koda (Suggestions Matching Public Code Filter) potvrđuje njihovu posvećenost zaštiti autorskog prava svih programera koji participiraju na platformi GitHub.

Tužitelji predstavljaju interese programera(-entuzijasta) koji polažu autorska prava na kod objavljen na GitHub platformi (osnovanoj 2008. godine i izrađenoj na principu otvorenog koda i dijeljenja koda) i koji svaki zasebno sadrži posebne licencije u vezi prava na njegovo korištenje. U tužbenom zahtjevu navodi se kako, zaključno do 2018. godine kada Microsoft preuzima GitHub, na platformi participira impresivna brojka od 25 miliona razvojnih programera čiji je rad zaštićen sa 13 različitih kategorija licencija.

Dvije godine kasnije, Microsoft postaje ekskluzivni nositelj licencije GPT-3 modela, a što tužitelji koriste kako bi osporili tvrdnju OpenAIa da GPT služi na dobrobit čovječanstva (da je tako, bio bi open-source i ne bi se naplaćivao za korištenje).

Alat Copilot, zajednički projekt GitHuba i OpenAIa, dodatno osnažen Codex alatom (OpenAI UI alat koji prirodni jezik pretvara u računalni kod), prema navodu tužitelja koristi kod dostupan na GitHub platformi bez pridržavanja licencijskih uvjeta kojima su open-source programi i linije koda na GitHubu zaštićeni. Konkretno, tužitelji tvrde da se tuženici koriste metodama anonimizacije koda, izbacivanja podataka o autoru i licenciji, te da kod na GitHub platformi koriste protivno uvjetima licencija (kao baza podataka za strojno učenje, kao izravan ili kozmetički izmijenjen output). Tužitelji dodatno navode kako su tuženici nakon pokretanja postupka implementirali opciju koja, kada se uključi prilikom generacije, ne pokazuje onaj kod koji temeljem provjere oko 150 znakova koda u potpunosti odgovara već postojećem kodu na GitHub platformi. No, kako tužitelji tvrde, istovremeno je razvijena tehnika minimalne izmjene takvog koda kako bi se izbjegla navedena detekcija, a što nema utjecaja na sadržajni kontekst izgeneriranog koda koji se i dalje temelji na već postojećem kodu na GitHub platformi. To u konačnici, prema navodu tužitelja, navedeni filter čini beskorisnim. Tužitelji posebno naglašavaju činjenicu kako se alat Copilot na tržištu, bez prethodnog dopuštenja autora izvornog koda objavljenog na GitHubu i bez naknade za korištenje tog koga, nudi uz novčanu naknadu (na bazi pretplatničkog modela), a što predstavlja, prema navodu tužitelja, izravnu monetizaciju tuđeg autorskog prava bez dopuštenja autora (suprotno doktrini poštenog korištenja). Obzirom da Copilot koristi Codex za svoj rad, za alat Codex, prema navodu tužitelja, vrijedi sve što je prethodno navedeno za alat Copilot.

Slijedom svega navedenoga tužitelji su izvorno i naknadno ustali sa nizom optužbi na račun tuženika: kršenje američkog saveznog Zakona o autorskim pravima digitalnog milenija (Digital Millennium Copyright Act), kršenje ugovornih odredbi postojećih licencija, kršenje općih uvjeta poslovanja, izvanugovorna ekonomska šteta, povreda tržišnog natjecanja, neopravdano bogaćenje, te propust ulaganja dužne pažnje.

Predatorske kompanije zahtjevaju predatorske pravosudne dužnosnike 📷 Leonardo.AI
Predatorske kompanije zahtjevaju predatorske pravosudne dužnosnike Leonardo.AI

Help Me Help You

Nova godina započela je ranim podsjetnikom kako saga u vezi generativne umjetne inteligencije i autorskih prava tek sazrijeva. Drugog radnog dana Nove godine, američki sudac Tigar donio je nekoliko bitnih odluka u tekućem predmetu koji se u formi kolektivne tužbe vodi protiv GitHuba (GitHub i Microsoft) i OpenAIa. Sudac je odbacio segmente tužbenog zahtjeva koji se odnose na izvanugovorne ekonomske štete, neopravdano korištenje i nelojalnu konkurenciju temeljene na pravnoj osnovi koja izvire iz kalifornijskog prava obzirom kako je materija uređena saveznim zakonodavstvom iz područja autorskog prava. Sudac je također odbacio potencijalnu povredu prethodno navedenog saveznog akta (DMCA) obzirom kako isti zahtjeva identičnu kopiju reproduciranog djela.

Postupak se, međutim i što je daleko bitnije, dalje nastava po pitanju tužbenih navoda u vezi neovlaštene monetizacije tuđeg koda i kršenja pravila licencija kojima je softver zaštićen na platformi GitHub. Dok se izvorno postupak vodio s ciljem privremene mjere zabrane poslovanja radi sprječavanja daljnje štete, nakon nove odluke suda tužitelji sada imaju mogućnost potraživati naknadu pretrpljene štete u proteklom razdoblju. Zacrtani daljnji put pravne argumentacije potencijalno počinje mirisati ne samo na neki sporazum od više stotina milijuna vrijednosti nagodbe, već i na poticaj američkom Kongresu da jače pogura zakonodavne inicijative poput novijeg No FRAUD AI Act prijedloga zakona, ili starijeg No FAKES Act prijedloga. Navedeni prijedlozi zakona, uz podsjetnik kako američko savezno zakonodavstvo po pitanju umjetne inteligencije još uvijek ne postoji (postoji niz policy dokumenata koje gura Bidenova administracija), bave se problematikom zaštite autorskog prava u svjetlu digitalnih generativnih alata umjetne inteligencije (tema za neki od narednih tekstova).

Ono što predstavlja srž problema prvenstveno se odnosi na baze podataka koje se koriste za strojno učenje. Kada je prije otprilike 20-ak godina Google počeo digitalizirati knjige, čitavo vrijeme inzistiralo se na tome kako se digitalizacija provodi da bi se bogata knjižna građa učinila dostupna u svim dijelovima svijeta. Danas, desetljećima kasnije, gotovo pa ispada kako je osnovni cilj tog projekta bilo građenje bogate LLM (large language model) baze koja će poslužiti za treniranje Google Barda, izravne konkurencije ChatGPT alatu. U različitim zemljama vodile su se i dalje se vode brojne parnice na temu povrede autorskog prava i prava izdavača u vezi onoga što Google (i brojne druge kompanije) svakodnevno i bez prekida rade. Brojni autori i izdavači, poglavito iz Europe, i dalje ustraju pri svojim stavovima da je riječ o čistoj krađi. Američki Vrhovni sud u jednom je sada već starijem predmetu utvrdio kako to što Google radi predstavlja fair use korištenje tuđih autorskih djela bez dopuštenja autora. No, kako se LLM baze, baš kao i njemačka LAION baza, sve više počinju komercijalno eksploatirati, postavlja se opravdano pitanje može li navedeni sudski presedan opstati u realnosti kojoj svjedočimo posljednjih nekoliko godina.

Drugim riječima, kada čitate tuđu knjigu na, primjerice, Google Books, bez da ste autora pitali smijete li to raditi ili ne, smatra se da pošteno koristite navedeno autorsko djelo jer isto koristite za vaše osobne potrebe. No kada na jednom monitoru imate otvorenu istu knjigu, a na drugom monitoru doslovno prepisujete sadržaj koji kasnije prodajete na, primjerice, Amazon Books, smatra se da kršite autorsko pravo, plagirate sadržaj, i predstavljate nelojalnu konkurenciju izvornom autoru odnosno izdavaču (ako je, kao što obično rade, na sebe prenio sva autorska prava). Po istoj logici, kada Google Books nudi knjige na čitanje milijardama ljudi kako bi imali pristup znanju (prvi prethodni primjer), američki presedan kaže da je to pošteno korištenje tuđeg autorskog djela bez naknade. Ali, kada Google navedenu knjigu koristi da bi trenirao svoj UI alat koji će kasnije naplaćivati za upotrebu, postavlja se opravdano pitanje treba li tražiti prethodno dopuštenje autora/izdavača knjige za korištenje knjige u bazi podataka za strojno učenje (machine learning dataset) te treba li istima ponuditi naknadu odnosno od istih ishoditi licenciju za navedeno korištenje. Danas većina masovno korištenih generativnih UI alata to ne radi, i upravo navedena činjenica predstavlja sukus svih trenutačno otvorenih postupaka (pretežito pred američkih sudovima).

Jedna baza to rule them all 📷 Microsoft Designer
Jedna baza to rule them all Microsoft Designer

O navedenoj presudi američkog Vrhovnog suda, spomenutoj LAION bazi (i povezanim predmetima koji se tiču text-to-image i text-to-text sporova), recentnoj Andy Warhol presudi (i doktrini fair use) i drugim povezanim temama biti će možda riječi u nekim drugim tekstovima, no uvodno se može zaključiti kako se tek sada, nakon 20 i nešto godina rađa svijest među širom populacijom odnosno razumijevanje onoga na što su relativno malobrojne ugrožene skupine upozoravale još prije više od jednog desetljeća. Na račun hipoteze o skrbi o javnom dobru i javnim interesima, provodi se megalomanska monetizacija svega što se, kako sam Google otvoreno kaže, može scrappati odnosno preuzeti sa mreže, neovisno o tome pristaju li vlasnici podataka na isto ili ne, odnosno znaju li uopće da se njihovi podaci koriste. Iako se mantra zaštite osobnih podataka ponavlja već dugo, dugo vremena, ispada da se o vrijednosti zaštite osobnog podataka počinje ozbiljno promišljati tek kada se veće interesene skupine nađu u situaciji da su izravno ugroženi nelojalom konkurencijom. Danas velike skupine umjetnika ustaju kolektivnim tužbama protiv StableDiffusiona, DevianArta i Midjourneya, Sancton i Silverman traže zaštitu svojih pisanih tekstova, New York Times (koji je ustao sa sporom protiv OpenAIa) i drugi veliki izdavači blokiraju pristup ChatGPTu svojim bazama (a što, posljedično, dovodi i do potencijalnog biasa (pristranosti) u outputu navedenog alata obzirom na ograničenu bazu dostupnih informacija), i sl.

Kako je kompanija Uber istaknula još davne 2011. godine u svom White Policy Paperu koji kasnije nisu uspjeli trajno ukloniti sa mreže, disrupcija tržišta temelji se isključivo na korištenju svih dostupnih mehanizama nelojalne konkurencije kako bi se uspostavio monolop na tržištu. Disrupcija je osmišljena tako da bude primamljiva, moderna, jednostavnoga sučelja i jasno iskazane koristi, no iza kulise počiva na kratkoročnim ili dugoročnim zahtjevima ostvarivanja profita. Kada je podloga tehnološke disrupcije izrazito snažna, kao što je riječ sa generativnim UI alatima, spill-over efekt korištenja tehnologije ulazi u sve pore života stotina milijuna ljudi koji takve alate svakodnevno koriste. Samim time, problematika ove tehnologije postaje puno značajnija od problematike zaštite autorskog prava, o čemu će svakako biti puno riječi u ovoj kolumni.

Navedena problematika izrazito je aktualna u kontekstu zakonodavnih nastojanja da se, barem okvirno, uredi i ovaj segment digitalnog tržišta. Primjerice, uloga generativnih UI alata prepoznata je i tijekom rasprava o tekstu predložene europske Uredbe o umjetnoj inteligenciji na način da je usvojen prijedlog Europskog parlamenta da se u tekst Nacrta Uredbe ubaci sasvim novi segment koji se bavi probematikom generativnih UI alata u kontekstu zaštite temeljenih europskih vrijednosti i zaštite autorskih prava. Kako se u narednom razdoblju očekuje usvajanje konačnog teksta navedene Uredbe, svakako će se priprediti nekoliko tekstova i na ovu, svima jako interesantnu i bitnu temu.

Odmetnuta UI tipka 📷 Microsoft Designer
Odmetnuta UI tipka Microsoft Designer

Mihael Mudrić je izvanredni profesor na Pravnom fakultetu Sveučilišta u Zagrebu gdje predaje teme iz područja prometnog prava, prava osiguranja, energetskog prava i prava privatne zaštite. Posebno se bavi problematikom regulacije umjetne inteligencije u kontekstu privatne i javne sigurnosti, automatizacije vožnje u svim modalitetima prijevoza, i zaštite osobnih podataka. Sudjelovao je na više međunarodnih znanstvenih projekata uključujući HORIZON 2020, aktivan je član međunarodne radne skupine za autonomna plovila pri Međunarodnom pomorskom odboru, i predstavnik je Republike Hrvatske pri Međunarodnoj pomorskoj organizaciji u Zajedničkoj radnoj skupini za autonomna plovila. Potpredsjednik je Hrvatskog društva za pomorsko pravo, arbitar pri Arbitražnom sudištu HGK, i član Instituta za sigurnosne politike. Doktorirao je na Max Planck institutu i Pravnom fakultetu Sveučilišta u Hamburgu, Hamburg, Njemačka.