Március közepéig heti rendszerességgel aratjuk a pekingi téli olimpiai játékokkal kapcsolatos híreket és egyéb weboldalakat. A címlista itt nézhető meg.
3K cikk az archiváló szoftverekről
A Könyv, Könyvtár, Könyvtáros folyóirat 2021/9. számában megjelent Drótos László cikke „Crawlerek és scraperek” címmel azokról a különféle programokról, amelyeket az elmúlt év folyamán teszteltünk a Webarchiválási Osztályon.
Az OSZK webarchívum 2021-es összesített adatai
Elkészültek az összesített statisztikák a webarchívum tavalyi gyarapodásáról és aktuális méretéről. Ezek közül a legfontosabbak a szövegesen és diagramok formájában itt láthatók.
Webtér aratás statisztikái
Elkészült a 2021. december 26-án indított WEBTER aratás részletes statisztikája. Az oldalképekre vonatkozó adatok nem véglegesek, mivel még folyik a kezdőoldalak „lefotózása”, továbbá nincs benne a statisztikában annak a 12,5 ezer webhelynek az adata, melyeknél hiányzik a robots.txt fájl, mert ezeket egy külön menetben arattuk le. Ilyen „pillanatfelvételt” évente kétszer csinálunk minden olyan nyilvános magyar domén vagy aldomén címről, amiről tudomásunk van. A robot a kezdőlaptól csak 2 szintig követi a linkeket és erősen be van korlátozva a webhelyenként letölthető tartalom mennyisége, a fájlok száma és mérete is. Ez alkalommal 7 nap 16 óra 26 perc után állítottuk le a programot, mivel már alig talált újabb URL címeket. Ez alatt az idő alatt összesen több mint 74 millió fájlt töltött le a Heritrix, ebből 30 millió volt az új, ami eltárolásra került 2,4 terabájt összméretben.
E-periodikák nyilvántartásának bővítése
Az elmúlt néhány hétben jelentősen bővítettük az időszakosan megjelenő kiadványok weboldalainak címlistáját. A nemzetközi ISSN Portal adatbázisa és néhány más nyilvántartás alapján mintegy 800, eddig még nem archivált URL címet vettünk fel az ELPERI gyűjteménybe, mely így már több mint 6500 tételes és a hónap végén kerül újra aratásra. A folyóiratok és magazinok mellett most sok (kb. 160) diákújságot és iskolai évkönyvet is regisztráltunk a due.hu és a fisz.hu portálok – sajnos már eléggé elavult – katalógusai alapján.
TERMUSZ részgyűjtemény
Lefutott a „Természet- és műszaki tudományok” nevű részgyűjtemény első aratása. A statisztikai adatok itt láthatók, a seedlista pedig itt böngészhető. A webhelyek gyűjtése jövőre is folytatódik, mert egyes szakterületekről még nagyon kevés cím lett beválogatva.
Elérhetők a „404-es workshop” prezentációi
Az idei „404 Not Found – Ki őrzi meg az internetet?” online konferenciánkon elhangzott előadások prezentációi már letölthetők a rendezvény weboldaláról. (A videófelvételek szerkesztése még tart, azok később lesznek elérhetők a Videotoriumban.) Az érdeklődés az idén is nagy volt: 150-en regisztráltak és mindkét napon 108-an léptek be a Teams csatornára.
A webarchiválás oktatásáról a Könyvtári Figyelőben
A Könyvtári Figyelő idei 3. számában megjelent Németh Márton és Drótos László írása „A webarchiválás oktatásának nemzetközi keretei és hazai tapasztalatai” címmel, melyben az International Internet Preservation Consortium oktatási munkacsoportjának tevékenysége mellett a saját tanfolyamunk online formába történt (kényszerű) átalakításának előnyeiről és hátrányairól is beszámolunk. A cikk itt tölthető le PDF formátumban.
„404 Not Found – Ki őrzi meg az internetet?” videókonferencia és workshop
November 23-án és 24-én tartjuk meg az ötödik 404-es workshopunkat, a járványhelyzet miatt ezúttal is online formában, az első napon nemzetközi résztvevőkkel angol nyelven. A részletes program és a regisztrációs űrlap az OSZK honlapján érhető el.
Előadás a „Born digital” műhelykonferencián
A Petőfi Irodalmi Múzeum és az Országos Széchényi Könyvtár november 5-én „Born digital” címmel rendezett egynapos tanácskozást a digitálisan született tartalmak közgyűjteményi megőrzéséről. A rendezvényen Drótos László a webarchiválásról tartott előadást, melynek prezentációja itt tölthető le.