Technikai tudnivalók az archiválásról

A nemzeti könyvtár a webarchiválást egy, a Google robotjához hasonló szoftverrel végzi. Ez a crawler általában az Internet Archive által fejlesztett Heritrix, néhány esetben pedig a Brozzler vagy a HTTrack. A robot OSZKbot user-agent néven azonosítja magát és ha az általa felkeresett webszerveren van robots.txt fájl, akkor az abban levő tiltásokat tiszteletben tartja (kivéve, ha ezek megkerülésére a szolgáltató felhatalmazza az OSZK-t). A tartalomgazdák tehát a robots.txt  segítségével tudják szabályozni, hogy a webhelyük mely részeit engedik lementeni a webarchívumba. Fontos viszont, hogy a külalak és a navigálhatóság megőrzése érdekében az archiváló robot számára engedélyezni kell a CSS-, a Javascript-, a font- és az oldalak helyes megjelenítéséhez, illetve működéséhez szükséges egyéb fájlokhoz való hozzáférést is, amelyekre a Google és más keresőgépek robotjainak nincsen szüksége.

Az OSZKbot csak a nyilvánosan elérhető weboldalakat járja be és többnyire azokat sem teljes mélységben. Természetesen nem megy be a regisztrációt igénylő szolgáltatásokba, továbbá nem tudja letölteni az adatbázisok tartalmát sem, ha az csak egy keresőűrlapon keresztül érhető el. Nem mentjük le továbbá a túlságosan nagy méretű fájlokat, a streamelt médiát, és általában kizárjuk a letölthető videó fájlokat is. A robot polite üzemmódban működik, ami azt jelenti, hogy nem terheli túl a webszervert gyorsan ismétlődő kérésekkel, nem lassítja érezhetően annak válaszidejét az emberi felhasználók számára. Emiatt egy nagyobb webhely letöltése akár napokig is eltarthat. Az aratást néhány havonta megismételjük, hogy az új vagy a megváltozott fájlok is bekerüljenek az archívumba.

A begyűjtött webtartalom WARC formátumban egy zárt archívumba kerül, melyet kutatási célokra lehet majd használni – a szerzői és a személyiségi jogok tiszteletben tartása mellett – a nemzeti könyvtár belső hálózatán, a tartalom kimásolásának lehetősége nélkül. A zárt gyűjteményben levő webhelyeknek csak a legfontosabb metaadatai (név, URL, témakör) publikusak, valamint a kezdőlapjukról készült  300 pixel széles (nem olvasható minőségű) bélyegképek.

A webhelyek egy részénél szerződéskötés céljából megkeressük a tartalomgazdát, hogy az OSZK által lementett tartalom vagy annak egy része a nyilvános gyűjteménybe is bekerülhessen, amely elsősorban a webarchiválási technológia lehetőségeinek és korlátainak bemutatására szolgál. Az archivált verzió mellett minden esetben feltüntetjük az eredeti webhelyre mutató linket is, továbbá a webarchívumból a Google robotját kizárjuk, így nem fordulhat elő, hogy valaki a Google-ban keresve az eredeti honlap helyett az archivált változatra téved. A nyilvános gyűjteménybe való bekerülést a webhely tulajdonosa is kezdeményezheti az ajánló űrlap kitöltésével.

Bár a Heritrix a jelenlegi legfejlettebb webarchiváló eszköz, a dinamikus, sok Javascriptet vagy egyéb kódot tartalmazó, illetve a felhasználó közreműködését igénylő weboldalakkal nem mindig tud megbirkózni, ezért előfordulhat, hogy a mentett verzió hiányos lesz: például nem jelenik meg az oldal minden eleme, elromlik a külalak, nem követhetők mindenhol a belső linkek, nem működik a belső kereső vagy egyéb beépített program. Ezért a robottal való aratás mellett más szoftverekkel is kísérletezünk, például a Webrecorderrel. A demó archívumnak ez is az egyik célja, hogy maguk a tartalomgazdák is megnézhessék, hogy a weboldalaik milyen módszerrel és mennyire őrizhetők meg hosszú távon. Szívesen segítünk tanácsokkal és tesztelésekkel abban, hogy milyen változtatásokkal lehetne “archívumbaráttá” tenni az adott honlapot vagy blogot, ami az akadálymentesítéshez hasonlóan fontos szempont. Illetve abban is tudunk segíteni, ha egy intézmény saját webarchívumot szeretne kialakítani (pl. a honlapja korábbi verzióinak és egyéb online tartalmainak megőrzése céljából).