„Webarchiv (cseh)” változatai közötti eltérés
(Új oldal, tartalma: „A cseh nemzeti könyvtár webarchiváló projektje, mely - egy egyetemi partnerrel együttműködve - 2000-ben indult egy 2 éves pilot fázissal. Teljes körű (site-o…”) |
|||
(2 közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva) | |||
1. sor: | 1. sor: | ||
− | A cseh nemzeti könyvtár webarchiváló projektje, mely - egy egyetemi partnerrel együttműködve - 2000-ben indult egy 2 éves pilot fázissal. Teljes körű (site-onként max. |
+ | A cseh nemzeti könyvtár webarchiváló projektje, mely - egy egyetemi partnerrel együttműködve - 2000-ben indult egy 2 éves pilot fázissal. Teljes körű (1.4 millió domén, évente kétszer, site-onként max. 5.000 fájl), szelektív és esemény-alapú archiválást is végeznek a [[Heritrix]] programmal (2004-ig a [[NEDLIB Harvester]]t használták). A projekt melléktermékeként URN szervert, [[DC]]- és MD5 [[checksum]] generátort is beüzemeltek, valamint kifejlesztettek egy [[Seeder]] nevű keretrendszert a webhelyek és az aratások nyilvántartásához. 2001 őszétől 2019 őszéig 385 terabájtnyi tartalmat gyűjtöttek be (9,5 millió fájl) és több mint 5000 tartalomszolgáltatóval kötöttek szerződést. (Ezeket a site-okat viszont már max. 15.000 fájl szintig mentik.) |
− | + | Csupán az anyag egy része nyilvános (amire engedélyt adtak a tartalomgazdák), a teljes archívum csak a könyvtáron belül érhető el. Kiemelten gyűjtik a kulturális, tudományos és történeti értekkel rendelkező, eredeti és különleges, hosszú távon is értékes tartalmakat. |
|
A gyűjtőkört a nemzeti bibliográfia alapján határozták meg: |
A gyűjtőkört a nemzeti bibliográfia alapján határozták meg: |
||
16. sor: | 16. sor: | ||
* [https://en.wikipedia.org/wiki/Webarchiv Wikipedia: Webarchiv] |
* [https://en.wikipedia.org/wiki/Webarchiv Wikipedia: Webarchiv] |
||
* [http://blog.webarchiv.cz Webarchiv blog] |
* [http://blog.webarchiv.cz Webarchiv blog] |
||
− | * [http://en.webarchiv.cz/files/hutar_ss_uisk.ppt Jan Hutař: WebArchive - Archive of the Czech Web] |
||
* [https://github.com/webarchivcz A Webarchiv szoftvergyűjteménye a Github-on] |
* [https://github.com/webarchivcz A Webarchiv szoftvergyűjteménye a Github-on] |
||
+ | * [http://en.webarchiv.cz/files/hutar_ss_uisk.ppt Jan Hutař: WebArchive - Archive of the Czech Web] |
||
+ | * [http://mekosztaly.oszk.hu/mia/doc/DH_Budapest_2019_Marie_Haskovcova.pdf Marie Haškovcová: Webarchiv - Czech web archive of National Library of the Czech Republic] |
||
[[Category:PROJEKTEK]] |
[[Category:PROJEKTEK]] |
A lap jelenlegi, 2019. szeptember 28., 21:23-kori változata
A cseh nemzeti könyvtár webarchiváló projektje, mely - egy egyetemi partnerrel együttműködve - 2000-ben indult egy 2 éves pilot fázissal. Teljes körű (1.4 millió domén, évente kétszer, site-onként max. 5.000 fájl), szelektív és esemény-alapú archiválást is végeznek a Heritrix programmal (2004-ig a NEDLIB Harvestert használták). A projekt melléktermékeként URN szervert, DC- és MD5 checksum generátort is beüzemeltek, valamint kifejlesztettek egy Seeder nevű keretrendszert a webhelyek és az aratások nyilvántartásához. 2001 őszétől 2019 őszéig 385 terabájtnyi tartalmat gyűjtöttek be (9,5 millió fájl) és több mint 5000 tartalomszolgáltatóval kötöttek szerződést. (Ezeket a site-okat viszont már max. 15.000 fájl szintig mentik.)
Csupán az anyag egy része nyilvános (amire engedélyt adtak a tartalomgazdák), a teljes archívum csak a könyvtáron belül érhető el. Kiemelten gyűjtik a kulturális, tudományos és történeti értekkel rendelkező, eredeti és különleges, hosszú távon is értékes tartalmakat.
A gyűjtőkört a nemzeti bibliográfia alapján határozták meg:
- minden, ami a Cseh Köztársaság területén jelenik meg,
- minden, ami cseh nyelven van,
- minden, amit cseh alkotó hozott létre,
- és minden, aminek köze van a cseh néphez vagy országhoz.