„Webarchief KB (holland)” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „A holland nemzeti könyvtár, a Koninklijke Bibliotheek 2007 szeptemberétől működő szelektív webarchívuma. Elsősorban a tudományos és kulturális, továbbá a…”)
(Nincs különbség)

A lap 2017. július 23., 22:01-kori változata

A holland nemzeti könyvtár, a Koninklijke Bibliotheek 2007 szeptemberétől működő szelektív webarchívuma. Elsősorban a tudományos és kulturális, továbbá az innovatív webhelyekre koncentrálnak a válogatáskor (mert a politikai ill. az audiovizuális tartalmakat más holland webarchívumok mentik), és engedélyt kérnek a robottal való bejáráshoz, a lementéshez és a szolgáltatáshoz. A tartalomgazdának 4 hete van egy opt-out nyilatkozat visszaküldésével megtagadni ezt. A felhasználók is javasolhatnak megőrzésre érdemes honlapot. Egy webhelyet évente egyszer-kétszer archiválnak, de a főbb hírportálokat naponta, viszont csak hónapok múlva válik a mentés visszakereshetővé. A Heritrix és Wayback párost használják, de még fejlesztik a rendszert. A Heritrix részben polite crawler módban dolgozik: ötször annyi ideig vár a következő kéréssel, mint amennyire az előző kérés teljesítéséhez szüksége volt a webszervernek, de a robots.txt-t figyelmen kívül hagyják (hacsak a site gazdája külön nem kifogásolja), mert a tapasztalatok szerint sokszor nem szándékosan vannak kitiltva a robotok, csak mert ez a webszerver vagy a CMS rendszer alapbeállítása.

Az .nl top domain teljes aratásával nem próbálkoznak, túl nagy a feladat (5.74 millió regisztrált domain) és inkább kevés, de teljes értékű mentést akarnak, sok töredékes helyett. 2017 elején 12 ezer webhelyről 25 terabájt adatot tároltak (ezek negyede már időközben eltűnt az élő webről). Hozzáférés (2011 óta) csak helyben lehetséges, jogi okok miatt (nincs még kötelespéldány szabály a webes tartalmakra), de saját célra lehet másolatot készíteni.