Koronavírus járvány címlista bővítése

Az elmúlt napokban rengeteg új tétellel bővítettük a KORONAVIRUS2020 jelzésű, heti rendszerességgel aratott részgyűjteményünk seed listáját. A koronavírus okozta járvánnyal kapcsolatos híreket és egyéb online forrásokat 2020 februárjában kezdtük el archiválni. Az akkor összeválogatott 133 tételes címlista mára nagyrészt elavult és időközben sok újabb információforrás, valamint címke jelent meg, ezért már nagyon időszerű volt a frissítése. A jelenlegi listában 328 tételt (1012 URL címet) tartunk nyilván, típus szerint csoportosítva.

Holland videósorozat a webarchiválásról

A holland nemzeti könyvtár a január 31. és február 4. között zajló „webarchiválási hét” keretében egy három részből álló sorozatot jelentetett meg a YouTube-on, melyben Kees Teszelszky, a digitális gyűjtemény magyar származású kurátora beszél a holland web kezdeteiről, az archiválás fontosságáról, a válogatási elvekről, a részgyűjteményekről és a jövőbeli tervekről. Hollandiában 15 évvel ezelőtt indult a szelektív webarchiválás, jelenleg már 21 ezer webhelyet mentenek, viszont webtér szintű aratásokra nincs lehetőségük az ottani jogi környezet miatt.

A videók elérhetősége:

https://www.youtube.com/watch?v=WGZltMnSQgE
https://www.youtube.com/watch?v=lTK7eW_M14E
https://www.youtube.com/watch?v=Seq44U-jXJE

(A fogaskerék ikonra kattintva bekapcsolható az automatikus angol vagy magyar feliratozás.)

Webtér aratás statisztikái

Elkészült a 2021. december 26-án indított WEBTER aratás részletes statisztikája.  Az oldalképekre vonatkozó adatok nem véglegesek, mivel még folyik a kezdőoldalak „lefotózása”, továbbá nincs benne a statisztikában annak a 12,5 ezer webhelynek az adata, melyeknél hiányzik a robots.txt fájl, mert ezeket egy külön menetben arattuk le. Ilyen „pillanatfelvételt” évente kétszer csinálunk minden olyan nyilvános magyar domén vagy aldomén címről, amiről tudomásunk van. A robot a kezdőlaptól csak 2 szintig követi a linkeket és erősen be van korlátozva a webhelyenként letölthető tartalom mennyisége, a fájlok száma és mérete is. Ez alkalommal 7 nap 16 óra 26 perc után állítottuk le a programot, mivel már  alig talált újabb URL címeket. Ez alatt az idő alatt összesen több mint 74 millió fájlt töltött le a Heritrix, ebből 30 millió volt az új, ami eltárolásra került 2,4 terabájt összméretben.

E-periodikák nyilvántartásának bővítése

Az elmúlt néhány hétben jelentősen bővítettük az időszakosan megjelenő kiadványok weboldalainak címlistáját. A nemzetközi ISSN Portal adatbázisa és néhány más nyilvántartás alapján mintegy 800, eddig még nem archivált URL címet vettünk fel az ELPERI gyűjteménybe, mely így már több mint 6500 tételes és a hónap végén kerül újra aratásra. A folyóiratok és magazinok mellett most sok (kb. 160) diákújságot és iskolai évkönyvet is regisztráltunk a due.hu és a fisz.hu portálok – sajnos már eléggé elavult – katalógusai alapján.