„WARP (japán)” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „= (Web Archiving Project) = A japán National Diet Library 2002-ben indult webarchiváló projektje. Kezdetben egyedi engedélyekkel mentettek eseményeket, e-folyóir…”)
 
 
12. sor: 12. sor:
 
* [http://warp.da.ndl.go.jp/info/WARP_en.html A WARP angol nyelvű útmutatója]
 
* [http://warp.da.ndl.go.jp/info/WARP_en.html A WARP angol nyelvű útmutatója]
 
* [http://www.ndl.go.jp/en/publication/ndl_newsletter/203/20307.html Kosuke Murakami: Lessons learned from twelve years' operation of the Web ARchiving Project (WARP)]
 
* [http://www.ndl.go.jp/en/publication/ndl_newsletter/203/20307.html Kosuke Murakami: Lessons learned from twelve years' operation of the Web ARchiving Project (WARP)]
  +
* [https://netpreserveblog.wordpress.com/2018/02/28/how-can-we-use-web-archive-a-brief-overview-of-warp-and-how-it-is-used/ Naotoshi Maeda: How Can We Use Web Archive? : A Brief Overview of WARP and How It Is Used)]
   
 
[[Category:PROJEKTEK]]
 
[[Category:PROJEKTEK]]

A lap jelenlegi, 2018. március 12., 10:14-kori változata

(Web Archiving Project)

A japán National Diet Library 2002-ben indult webarchiváló projektje. Kezdetben egyedi engedélyekkel mentettek eseményeket, e-folyóiratokat, kormányzati és egyetemi honlapokat, 2006-ig csak teszt fázisban, utána kezdődött az üzemszerű aratás (akkoriban még a Wget-tel). A 2009-es törvénymódosítás lehetővé tette a nemzeti könyvtár számára az állami hivatalok és az egyetemek weboldalainak archiválását, de a szolgáltatáshoz, illetve a többi webhely esetében az archiváláshoz is továbbra is engedélyeket kérnek, így az archívumnak csak egy része nyilvános, a többi pedig helyben férhető hozzá. (Magáncégek és magánemberek oldalait nem gyűjtik, személyiségi és szerzői jogi megfontolásokból.)

A lementett webhelyekből a fontosabb publikációkat egy különgyűjteménybe is átmásolják, ahol részletesebb metaadatokat adnak hozzájuk. (2015 áprilisában 280 ezer ilyen "önállósított" e-dokumentumot katalogizáltak, melyek a nemzeti bibliográfiába és a 2.8 milliós digitális gyűjteményükbe is bekerültek.) 2012-ben volt egy újabb jogszabályi változás, ami előírta a kiadóknak, hogy az elektronikus publikációikat (PDF, EPUB vagy DAISY fájlok, illetve ISBN, ISSN vagy DOI azonosítóval rendelkező dokumentumok) küldjék be a nemzeti könyvtárnak, vagy engedjék azok begyűjtését. Az archívum gyorsan nő: 2005-ben 3,388 webhely (12,021 mentés, 3.108 terabájt), 2010-ben 6,181 webhely (27,317 mentés, 51.696 terabájt), 2015-ben 10,886 webhely (102,891 mentés, 705.904 terabájt).

2013-tól már a WARP rendszer harmadik generációja üzemel: Heritrix, Wayback és Solr alapokon. A előbbinél a de-duplication mód be van kapcsolva, így - egy három hónapos teszt adatai alapján - 70%-kal csökkenthető a szükséges tárhely. Keretrendszernek a WCT-t használták az előző WARP verziónál, de nagy tömegű párhuzamos job esetében visszaesett a teljesítménye, ezért egy saját rendszert csináltak, ami akár 120 feladatot is képes kezelni egyidejűleg. A szolgáltató felület szintén saját fejlesztés, amivel keresni (teljes szövegben is) és böngészni lehet, de például a japán kormányzati webhelyek közötti link-kapcsolatokat is meg tudja jeleníteni. Az archivált webhelyeket leíró metaadatok a könyvtár közös keresőjében is megtalálhatók, sőt a 2011-es nagy japán földrengés tematikus portálja, a HINAGIKU számára is továbbadják azokat, amelyek ezzel a témával kapcsolatosak.