Bug Online

Tema broja - Dugoročna pohrana podataka

Digitalna Bašćanska ploča

Dugoročna pohrana podataka, pod uvjetom da se podaci žele sačuvati u cijelosti i bez pogrešaka, je definitivno netrivijalan zadatak. U ovom kontekstu "dugoročno" znači nekoliko desetljeća, na primjer 40 godina, što je vremenski interval koji je zakonski propisan za određene vrste podataka. Loša vijest je da danas jednostavno ne postoje metode i uređaji koji će jednom snimljene podatke sačuvati desetljećima, a koji su cjenovno dostupni širokom krugu korisnika – kućnim korisnicima i manjim tvrtkama. Ovdje se podrazumijeva da se podaci mogu iz pohrane preuzeti u cijelosti i bez ikakvih grešaka, odnosno da su dostupnost i konzistentnosti podataka stopostotni. Dobra vijest je da se uz nešto truda i pametnog planiranja mogu postići razni postotci dostupnosti i konzistentnosti koji nude različite postotke statističke sigurnosti u podake uz relativno male investicije.
Postoji nekoliko grupa problema koji se susreću pri planiranju i uspostavljanju sustava za dugoročnu pohranu podataka.

Klasični problemi dugoročne pohrane podataka
Među širim krugom korisnika ovo je vjerojatno najpoznatiji problem općenite pohrane podataka, često iz vlastitog iskustva. Tek rijetki korisnici nisu imali pokvarene tvrde diskove ili optičke medije koji su postali djelomično ili u potpunosti nečitljivi. Ova kategorija problema je prozaična u svojoj učestalosti, ali definitivno netrivijalna za rješavanje. Podatke s diskova i drugih medija je tek ponekad moguće vratiti, uz veliki trošak i često ne u cijelosti. Strategija očuvanja podataka na ovoj razini se svodi na ugrađivanje više slojeva redundancije (najjednostavniji je RAID) jer iskustvo pokazuje da ulaganje u "specijalne" diskove ili druge medije koji se reklamiraju za dugoročnu pohranu ima vrlo ograničen utjecaj na pouzdanost.
Slično kvarovima medija, nisu neuobičajeni kvarovi opreme koja pristupa diskovima ili medijima (na primjer: diskovni kontroleri). Osim mogućnosti oštećivanja samih medija ovim putem, ovi kvarovi mogu biti suptilni i uzrokovati korupciju podataka koja se teško otkriva. Iako je ova klasa problema rjeđa od kvarova samih diskova medija, ozbiljnija je jer često istovremeno može učiniti nedostupnim ili pokvariti veći broj diskova odnosno medija. Redundacija je i u ovom slučaju najbolje rješenje, ali korupcija podataka se može otkriti samo stalnom provjerom integriteta. Česti način provjeravanja konzistentnosti podataka je izračun kontrolnih kodova (checksums, hashes) koji se kasnije uspoređuju sa stvarnim stanjem na disku. Danas postoje i datotečni sustavi koji automatski računaju i provjeravaju konzistentnost (na primjer Sunov besplatni ZFS).
Ponešto neočekivani hardverski problem pri dugoročnoj pohrani je i standardiziranost korištene tehnologije odnosno dugoročna mogućnost korištenja opreme i medija. Standardi priključivanja i korištenja hardvera se često mijenjaju te iako jedna vrsta opreme danas može biti širokodostupna i potpuno neproblematična (na primjer USB diskovi i flash-memorije), nekoliko desetljeća od danas je teško zamisliti da će takve uređaje uopće biti moguće priključiti na računalo. Ovaj problem postaje vidljiv na svakoj izmjeni generacija tehnologija. Nedavni primjer je prijelaz s PATA priključaka za diskove na SATA priključke; korisnici koji imaju podatke na PATA diskovima će uskoro teško moći doći do matičnih ploča s PATA kontrolerima i priključcima. Situacija sa serverskom opremom (SCSI, SAS) je nešto bolja jer je hardver dostupan dulje vrijeme, ali je još uvijek prisutan. Jedini način borbe protiv ovakve "zastarjelosti" opreme je spremanje kompletne opreme za čitanje zajedno s medijima na kojima su podaci (sav hardver od napajanja do nekoliko diskovnih kontrolera za rezervu i raznih kablova).
Zanimljiva razbibriga računalnih entuzijasta odnedavno je spašavanje zapisa s magnetskih audiotraka na kojima su zapisani programi i podaci za računala kao Commodore 64 i ZX Spectrum. Osim što je potrebno naći čitač magnetskih audiotraka (ovi će se uskoro pojavljivati samo u antikvarijatima) i adekvatno restaurirati signal, potrebno je koristiti i emulator koji će zapise interpretirati, te programe koji mogu nešto napraviti s ovim podacima. Ova situacija se u "moderno" doba preslikava na formate datoteka. Relativno blizak primjer je "nedavna" (prije gotovo 20 godina) popularnost WordPerfecta, obično verzije 5.1 za DOS, odnosno njegovog formata pohrane dokumenata. Koliko je ovo ozbiljno govori podatak da je najbolja činjenica koja se danas može reći o ovim datotekama da su podaci u 8-bitnom formatu većinom kompatibilni s ASCII-em. Jedini oblik podataka koji je ostao čitljiv od praskozorja računarstva do danas je običan tekst koji koristi englesku abecedu, ponekad čak samo s "velikim slovima" (verzal). Moderni prijedlozi rješenja ovog problema su stoga vrlo često varijacije na temu tekstualnih zapisa, na primjer XML (u obliku ODF-a i OOXML-a) i PDF (koji je u osnovi varijanta PostScripta). Ne postoji garancija ni da će se za 40 godina ovi formati moći čitati u današnjem obliku, ali šansa je veća nego za binarne formate kao .DOC.

Napomena: Članci iz časopisa se ne prenose uvijek kompletni, sa svim slikama, potpisima pod slike, okvirima, tablicama i sličnim. Ponekad se ne prenosi niti cijeli tekst članka. Svrha članaka na Webu jest da pruže uvid u način obrade teme i potaknu interes za proučavanjem tiskanog broja. Za cjelovit uvid u članke - savjetujemo da pogledate papirnato izdanje časopisa. Hvala.
Sigurnost i privatnost podataka su na prvom mjestu kod korisnika raznih online-usluga, ali sami pružatelji usluga imaju povezan, ali vrlo drugačiji problem - kako sačuvati podatke svojih korisnika tijekom niza godina, osobito ako za to postoji zakonska obveza

izdvojeni tekstovi - studeni 2008.

Oleg Maštruko

Oslobađanje stranica pet 24.10.2008

Apis IT

Podrška grada i države pet 24.10.2008

Iskon - Sustav automatske konfiguracije i praćenja korisničke opreme

Izjednačavanje velikih i malih pet 24.10.2008

P4P

Zbogom P2P, dolazi P4P? pet 24.10.2008

Plamenko Barišić, član Upravnog odbora za razvoj poslovanja King ICT-a

Dobri duh Kinga pet 24.10.2008

Microsoft Visual Studio 2008

Konačni raj? pet 24.10.2008

Google App Engine

Na oblaku pet 24.10.2008

SOA – DataPower

SOA kućni pomoćnik pet 24.10.2008

Microsoft Home u Redmondu

Dobrodošli u dom budućnosti! pet 24.10.2008

Svemirska istraživanja

Računala u svemiru pet 24.10.2008

Studeni

Programiranje u ljuski pet 24.10.2008

Oleg Maštruko

Premlad za umiranje pet 24.10.2008

Dugoročna pohrana podataka

Digitalna Bašćanska ploča pet 24.10.2008

Lenovo ThinkPad X200t

Zvijezda generacije uto 14.10.2008