Webarchiv (cseh)

Innen: MIA

A cseh nemzeti könyvtár webarchiváló projektje, mely - egy egyetemi partnerrel együttműködve - 2000-ben indult egy 2 éves pilot fázissal. Teljes körű (1.4 millió domén, évente kétszer, site-onként max. 5.000 fájl), szelektív és esemény-alapú archiválást is végeznek a Heritrix programmal (2004-ig a NEDLIB Harvestert használták). A projekt melléktermékeként URN szervert, DC- és MD5 checksum generátort is beüzemeltek, valamint kifejlesztettek egy Seeder nevű keretrendszert a webhelyek és az aratások nyilvántartásához. 2001 őszétől 2019 őszéig 385 terabájtnyi tartalmat gyűjtöttek be (9,5 millió fájl) és több mint 5000 tartalomszolgáltatóval kötöttek szerződést. (Ezeket a site-okat viszont már max. 15.000 fájl szintig mentik.)

Csupán az anyag egy része nyilvános (amire engedélyt adtak a tartalomgazdák), a teljes archívum csak a könyvtáron belül érhető el. Kiemelten gyűjtik a kulturális, tudományos és történeti értekkel rendelkező, eredeti és különleges, hosszú távon is értékes tartalmakat.

A gyűjtőkört a nemzeti bibliográfia alapján határozták meg:

  • minden, ami a Cseh Köztársaság területén jelenik meg,
  • minden, ami cseh nyelven van,
  • minden, amit cseh alkotó hozott létre,
  • és minden, aminek köze van a cseh néphez vagy országhoz.