Webtér aratás statisztikái

Elkészült a 2021. december 26-án indított WEBTER aratás részletes statisztikája.  Az oldalképekre vonatkozó adatok nem véglegesek, mivel még folyik a kezdőoldalak „lefotózása”, továbbá nincs benne a statisztikában annak a 12,5 ezer webhelynek az adata, melyeknél hiányzik a robots.txt fájl, mert ezeket egy külön menetben arattuk le. Ilyen „pillanatfelvételt” évente kétszer csinálunk minden olyan nyilvános magyar domén vagy aldomén címről, amiről tudomásunk van. A robot a kezdőlaptól csak 2 szintig követi a linkeket és erősen be van korlátozva a webhelyenként letölthető tartalom mennyisége, a fájlok száma és mérete is. Ez alkalommal 7 nap 16 óra 26 perc után állítottuk le a programot, mivel már  alig talált újabb URL címeket. Ez alatt az idő alatt összesen több mint 74 millió fájlt töltött le a Heritrix, ebből 30 millió volt az új, ami eltárolásra került 2,4 terabájt összméretben.

E-periodikák nyilvántartásának bővítése

Az elmúlt néhány hétben jelentősen bővítettük az időszakosan megjelenő kiadványok weboldalainak címlistáját. A nemzetközi ISSN Portal adatbázisa és néhány más nyilvántartás alapján mintegy 800, eddig még nem archivált URL címet vettünk fel az ELPERI gyűjteménybe, mely így már több mint 6500 tételes és a hónap végén kerül újra aratásra. A folyóiratok és magazinok mellett most sok (kb. 160) diákújságot és iskolai évkönyvet is regisztráltunk a due.hu és a fisz.hu portálok – sajnos már eléggé elavult – katalógusai alapján.

A webarchiválás oktatásáról a Könyvtári Figyelőben

A Könyvtári Figyelő idei 3. számában megjelent Németh Márton és Drótos László írása „A webarchiválás oktatásának nemzetközi keretei és hazai tapasztalatai” címmel, melyben az International Internet Preservation Consortium oktatási munkacsoportjának tevékenysége mellett a saját tanfolyamunk online formába történt (kényszerű) átalakításának előnyeiről és hátrányairól is beszámolunk. A cikk itt tölthető le PDF formátumban.