Prekopirali cijelu bazu Spotifya, najavljuju objavu 86 milijuna pjesama na torrentima
Digitalna knjižnica Anna’s Archive provela je masovno prikupljanje podataka sa Spotifyja, pri čemu je "arhivirala" 86 milijuna zvučnih zapisa, kako kažu, "radi trajnog očuvanja ljudske kulture"
Poznata digitalna knjižnica Anna’s Archive, koja se dosad prvenstveno fokusirala na arhiviranje tekstualne građe poput knjiga i znanstvenih radova (ne baš sasvim legalno), najavila je svoj dosad najambiciozniji projekt izvan područja teksta. Organizacija je nedavno uspješno provela masovno prikupljanje ("scrapanje") podataka s platforme Spotify, stvorivši prvu potpuno otvorenu "arhivu za očuvanje" glazbe.
Rekordna baza podataka
Ukupna količina prikupljenih podataka iznosi oko 300 terabajta, a distribuirat će se putem masovnih torrent datoteka grupiranih prema popularnosti sadržaja, najavili su iz Anna’s Archive. Nadalje objašnjavaju da njihova misija očuvanja ljudskog znanja i kulture ne pravi razliku između medija, a prilika za masovno prikupljanje podataka sa Spotifyja omogućila im je iskorak u glazbenu sferu.
Iako su entuzijasti i ranije digitalizirali glazbu, iz organizacije ističu da su postojeći napori često bili previše usmjereni na popularne izvođače i audiofilsku kvalitetu. To je rezultiralo prevelikim datotekama koje je teško dugoročno čuvati u cijelosti te slabim održavanjem manje poznatih djela.
Ovaj pothvat rezultirao je objavom najveće javno dostupne baze glazbenih metapodataka na svijetu. Kolekcija obuhvaća 256 milijuna zapisa, što značajno nadmašuje dosadašnje baze koje su brojale između 50 i 150 milijuna. Posebno se ističe preciznost podataka – dok baze poput MusicBrainza sadrže oko 5 milijuna jedinstvenih ISRC kodova, arhiva Anna’s Archive sadrži ih čak 186 milijuna, čime se postavlja novi standard u dokumentiranju glazbene industrije.
Otvoreni pristup arhivi
Što se tiče samih audio datoteka, arhivirano je oko 86 milijuna pjesama, što pokriva 99,6 % ukupnog broja slušanja na platformi. Za pjesme s indeksom popularnosti većim od nula, podaci su sačuvani u originalnoj OGG Vorbis kvaliteti od 160 kbit/s. Manje popularni zapisi, koji su često zanemareni u drugim arhivama, pohranjeni su u OGG Opus formatu na 75 kbit/s, čime je postignuta ravnoteža između uštede prostora i očuvanja zvučnog zapisa.
Specifičnost ovog projekta je u tome što je arhiva u potpunosti otvorena, što znači da je može zrcaliti bilo tko s dovoljno diskovnog prostora. Ovakav pristup sprječava gubitak podataka u slučaju gašenja centralnih servisa. Arhiva obuhvaća materijale objavljene do srpnja 2025. godine, a iz organizacije napominju kako su metapodaci već dostupni, dok će se audio datoteke, omoti albuma i dodatni tehnički podaci objavljivati u fazama putem njihove stranice s torrentima.
Reakcija Spotifya
Iz Spotifya, očekivano, nisu pretjerano sretni s ovakvim razvojem događaja. Glasnogovornik kompanije potvrdio je da su identificirali i odmah onemogućili korisničke račune, koje su nazvali zlonamjernima, a koji su korišteni za masovno prikupljanje metapodataka i glazbenih datoteka. Kažu da incident ne smatraju "hakiranjem" sustava u tradicionalnom smislu, već sustavnim kršenjem uvjeta pružanja usluge putem tzv. stream-rippinga i zloupotrebe API sučelja.
Uveli su nove zaštitne mehanizme kako bi spriječili slične pokušaje u budućnosti te su pojačali nadzor nad sumnjivim aktivnostima na platformi. Kompanija je u službenoj izjavi istaknula da "od prvog dana stoji uz umjetničku zajednicu protiv piratstva" te da aktivno surađuje s industrijskim partnerima kako bi zaštitila prava kreatora.