„HAW (horvát)” változatai közötti eltérés
1. sor: | 1. sor: | ||
= (Hrvatski Arhiv Weba) = |
= (Hrvatski Arhiv Weba) = |
||
− | A horvát nemzeti és egyetemi könyvtár 1998-ban kezdett el katalogizálni webhelyeket távoli forrásként. 2003-ban a zágrábi egyetem számítóközpontjával együtt kidolgoztak egy DAMP (Digital Archive of Croatian Web Publications) nevű, webes tartalmakat archiváló rendszert, amely 2004 januárjától működik. 2010-ben egyértelműbb nevet ("horvát webarchívum") kapott a szolgáltatás és már üzemszerűen működik 2011 óta. A szelektív és esemény-alapú gyűjtés mellett a .hr domaint is aratják nagyjából évente a [[Heritrix]]-szel. Az elsőt 2011 nyarán futtatták egy hónapig és 56 millió fájlt, 3,1 terabájtot gyűjtött össze, 2016-ban pedig 77 millió fájlt, 7,7 terabájtot mentettek le. A szelektív archívum mérete 2016 végén 40 terabájt volt (6.410 webhely, 47.578 mentés, 263 millió fájl). |
+ | A horvát nemzeti és egyetemi könyvtár 1998-ban kezdett el katalogizálni webhelyeket távoli forrásként. 2003-ban a zágrábi egyetem számítóközpontjával együtt kidolgoztak egy DAMP (Digital Archive of Croatian Web Publications) nevű, webes tartalmakat archiváló rendszert, amely 2004 januárjától működik. 2010-ben egyértelműbb nevet ("horvát webarchívum") kapott a szolgáltatás és már üzemszerűen működik 2011 óta. A szelektív és esemény-alapú gyűjtés mellett a .hr domaint is aratják nagyjából évente a [[Heritrix]]-szel. Az elsőt 2011 nyarán futtatták egy hónapig és 56 millió fájlt, 3,1 terabájtot gyűjtött össze, 2016-ban pedig 77 millió fájlt, 7,7 terabájtot mentettek le (a kiinduló [[seed]]-lista ekkor közel 100 ezer tételes volt). A szelektív archívum mérete 2016 végén 40 terabájt volt (6.410 webhely, 47.578 mentés, 263 millió fájl). |
A minőségellenőrzéshez és a [[seed]] URL-ek adatbázisának karbantartásához saját szoftvereket is fejlesztettek az évek során (pl. 500 megabájtnál nagyobb fájlok kiszűrése, 80%-nál nagyobb arányban egyező mentések jelzése, az élő webről az elmúlt hónapban eltűnt site-ok listája). Az archívum nagy része nyilvános, ha pedig egy tartalomszolgáltató ezt nem engedélyezi, annak az archivált anyaga a könyvtárban helyben érhető el. A metaadatok a könyvtár katalógusába is bekerülnek MARC rekordok formájában és az Europeana-ba is beküldik őket. |
A minőségellenőrzéshez és a [[seed]] URL-ek adatbázisának karbantartásához saját szoftvereket is fejlesztettek az évek során (pl. 500 megabájtnál nagyobb fájlok kiszűrése, 80%-nál nagyobb arányban egyező mentések jelzése, az élő webről az elmúlt hónapban eltűnt site-ok listája). Az archívum nagy része nyilvános, ha pedig egy tartalomszolgáltató ezt nem engedélyezi, annak az archivált anyaga a könyvtárban helyben érhető el. A metaadatok a könyvtár katalógusába is bekerülnek MARC rekordok formájában és az Europeana-ba is beküldik őket. |
A lap 2017. október 1., 19:39-kori változata
(Hrvatski Arhiv Weba)
A horvát nemzeti és egyetemi könyvtár 1998-ban kezdett el katalogizálni webhelyeket távoli forrásként. 2003-ban a zágrábi egyetem számítóközpontjával együtt kidolgoztak egy DAMP (Digital Archive of Croatian Web Publications) nevű, webes tartalmakat archiváló rendszert, amely 2004 januárjától működik. 2010-ben egyértelműbb nevet ("horvát webarchívum") kapott a szolgáltatás és már üzemszerűen működik 2011 óta. A szelektív és esemény-alapú gyűjtés mellett a .hr domaint is aratják nagyjából évente a Heritrix-szel. Az elsőt 2011 nyarán futtatták egy hónapig és 56 millió fájlt, 3,1 terabájtot gyűjtött össze, 2016-ban pedig 77 millió fájlt, 7,7 terabájtot mentettek le (a kiinduló seed-lista ekkor közel 100 ezer tételes volt). A szelektív archívum mérete 2016 végén 40 terabájt volt (6.410 webhely, 47.578 mentés, 263 millió fájl).
A minőségellenőrzéshez és a seed URL-ek adatbázisának karbantartásához saját szoftvereket is fejlesztettek az évek során (pl. 500 megabájtnál nagyobb fájlok kiszűrése, 80%-nál nagyobb arányban egyező mentések jelzése, az élő webről az elmúlt hónapban eltűnt site-ok listája). Az archívum nagy része nyilvános, ha pedig egy tartalomszolgáltató ezt nem engedélyezi, annak az archivált anyaga a könyvtárban helyben érhető el. A metaadatok a könyvtár katalógusába is bekerülnek MARC rekordok formájában és az Europeana-ba is beküldik őket.