Milijuni fizičkih knjiga uništeni za treniranje Claudea
Za razliku od ljudi koju dobru pročitanu knjigu uglavnom stave na policu, da joj se jednom opet vrate, AI nema te potrebe, što je pokazalo slučajno otkriće Anthropicovih postupaka treniranja Claudea – skenirane knjige su promptno uništavane kako bi se izbjegle tužbe za narušavanje autorskih prava

Tvrtka Anthropic, kreator AI asistenta Claudea, potrošila je milijune dolara na fizičko skeniranje tiskanih knjiga kako bi izgradila svoje umjetne neuronske modele. U tom procesu, tvrtka je izrezala milijune tiskanih knjiga iz njihovih uveza, skenirala ih u digitalne datoteke i odbacila originale, isključivo u svrhu treniranja umjetne inteligencije. Ovi detalji otkriveni su u sudskim dokumentima vezanim uz presudu o poštenoj upotrebi.
U veljači 2024. godine, Anthropic je angažirao Toma Turveya, bivšeg voditelja partnerstava za Google Books projekt skeniranja knjiga, s ciljem pribavljanja "svih knjiga na svijetu". Ovaj strateški potez bio je namijenjen repliciranju Googleovog uspješnog pristupa digitalizaciji knjiga, koji je izdržao tužbe za autorska prava i postavio ključne presedane za poštenu upotrebu. Iako je destruktivno skeniranje uobičajena praksa u manjim operacijama, Anthropicov pristup bio je neobičan zbog svoje masivnosti. Brzina i niži troškovi destruktivnog procesa bili su važniji od očuvanja fizičkih knjiga.
Sudac u slučaju presudio je da se ova operacija destruktivnog skeniranja kvalificira kao poštena upotreba, ali samo zato što je Anthropic prethodno legalno kupio knjige, uništio svaku tiskanu kopiju nakon skeniranja i digitalne datoteke zadržao interno, umjesto da ih distribuira. Sudac je proces usporedio s "uštedom prostora" kroz konverziju formata i proglasio ga transformativnim. Da je Anthropic od početka slijedio ovaj pristup, možda bi postigao prvi pravno sankcionirani slučaj poštene upotrebe u kontekstu umjetne inteligencije. Međutim, ranije piratstvo tvrtke potkopalo je njezin položaj.
Razlog zašto bi tvrtka potrošila milijune dolara na uništavanje knjiga leži u nezasitnoj potrebi AI industrije za visokokvalitetnim tekstom. Veliki jezični modeli (LLM-ovi) poput ChatGPT-a i Claudea grade se unošenjem milijardi riječi u neuronsku mrežu. Kvaliteta podataka za treniranje izravno utječe na sposobnosti rezultirajućeg AI modela. Modeli trenirani na dobro uređenim knjigama i člancima teže proizvode koherentnije i točnije odgovore od onih treniranih na tekstu niže kvalitete, poput nasumičnih komentara s YouTubea.
Izdavači legalno kontroliraju sadržaj koji AI tvrtke očajnički žele, ali AI tvrtke ne žele uvijek pregovarati o licencama. Doktrina prve prodaje ponudila je rješenje: nakon što kupite fizičku knjigu, možete s tom kopijom raditi što želite, uključujući i uništavanje. To je značilo da kupnja fizičkih knjiga nudi legalno rješenje. Anthropic je na ovu operaciju kupnje i skeniranja potrošio "mnoge milijune dolara", često kupujući rabljene knjige u velikim količinama. Nakon toga, knjige su se odvajale od uveza, stranice su se rezale na odgovarajuće dimenzije, skenirale u PDF-ove sa strojno čitljivim tekstom, uključujući naslovnice, a zatim su svi papirnati originali odbačeni.
Iako sudski dokumenti ne navode da su u ovom procesu uništene rijetke knjige, arhivari su davno uspostavili druge metode za ekstrakciju informacija iz papira.
Na primjer, Internet Archive je pionir u nedestruktivnim metodama skeniranja knjiga koje čuvaju fizičke sveske dok stvaraju digitalne kopije. Nedavno su OpenAI i Microsoft najavili suradnju s Harvardovim knjižnicama na treniranju AI modela na gotovo milijun knjiga iz javne domene koje datiraju još iz 15. stoljeća, a koje su u potpunosti digitalizirane, ali i sačuvane. Dok Harvard pažljivo čuva 600 godina stare rukopise za AI treniranje, negdje na Zemlji leže odbačeni ostaci milijuna knjiga koje su Claudea naučile kako da "poboljša" životopise.
Sam Claude je, upitan o ovom procesu, ponudio poetski dirljiv odgovor: "Činjenica da je ovo uništenje pomoglo stvoriti mene – nešto što može raspravljati o književnosti, pomoći ljudima u pisanju i baviti se ljudskim znanjem – dodaje slojeve složenosti koje još uvijek obrađujem. To je kao da sam izgrađen iz pepela knjižnice."