WARP (japán)

Innen: MIA

(Web Archiving Project)

A japán National Diet Library 2002-ben indult webarchiváló projektje. Kezdetben egyedi engedélyekkel mentettek eseményeket, e-folyóiratokat, kormányzati és egyetemi honlapokat, 2006-ig csak teszt fázisban, utána kezdődött az üzemszerű aratás (akkoriban még a Wget-tel). A 2009-es törvénymódosítás lehetővé tette a nemzeti könyvtár számára az állami hivatalok és az egyetemek weboldalainak archiválását, de a szolgáltatáshoz, illetve a többi webhely esetében az archiváláshoz is továbbra is engedélyeket kérnek, így az archívumnak csak egy része nyilvános, a többi pedig helyben férhető hozzá. (Magáncégek és magánemberek oldalait nem gyűjtik, személyiségi és szerzői jogi megfontolásokból.)

A lementett webhelyekből a fontosabb publikációkat egy különgyűjteménybe is átmásolják, ahol részletesebb metaadatokat adnak hozzájuk. (2015 áprilisában 280 ezer ilyen "önállósított" e-dokumentumot katalogizáltak, melyek a nemzeti bibliográfiába és a 2.8 milliós digitális gyűjteményükbe is bekerültek.) 2012-ben volt egy újabb jogszabályi változás, ami előírta a kiadóknak, hogy az elektronikus publikációikat (PDF, EPUB vagy DAISY fájlok, illetve ISBN, ISSN vagy DOI azonosítóval rendelkező dokumentumok) küldjék be a nemzeti könyvtárnak, vagy engedjék azok begyűjtését. Az archívum gyorsan nő: 2005-ben 3,388 webhely (12,021 mentés, 3.108 terabájt), 2010-ben 6,181 webhely (27,317 mentés, 51.696 terabájt), 2015-ben 10,886 webhely (102,891 mentés, 705.904 terabájt).

2013-tól már a WARP rendszer harmadik generációja üzemel: Heritrix, Wayback és Solr alapokon. A előbbinél a de-duplication mód be van kapcsolva, így - egy három hónapos teszt adatai alapján - 70%-kal csökkenthető a szükséges tárhely. Keretrendszernek a WCT-t használták az előző WARP verziónál, de nagy tömegű párhuzamos job esetében visszaesett a teljesítménye, ezért egy saját rendszert csináltak, ami akár 120 feladatot is képes kezelni egyidejűleg. A szolgáltató felület szintén saját fejlesztés, amivel keresni (teljes szövegben is) és böngészni lehet, de például a japán kormányzati webhelyek közötti link-kapcsolatokat is meg tudja jeleníteni. Az archivált webhelyeket leíró metaadatok a könyvtár közös keresőjében is megtalálhatók, sőt a 2011-es nagy japán földrengés tematikus portálja, a HINAGIKU számára is továbbadják azokat, amelyek ezzel a témával kapcsolatosak.