Felkerült a Videotoriumba a 2021. november 23-án és 24-én tartott „404 Not Found – Ki őrzi meg az internetet?” című online rendezvényünk anyaga. A felvételek a https://videotorium.hu/hu/channels/5339/ oldalon tekinthetők meg.
Elérhetők a lengyel webarchiválási workshop videói
Felkerültek a YouTube-ra a lengyel Nemzeti Levéltár által 2021. november 16-án és 17-én szervezett és részben helyben, részben pedig online megtartott webarchiválási workshop videófelvételei, köztük Németh Márton „Brief introduction to the Hungarian Web Archive at the National Széchényi Library” című előadása, melynek prezentációja innen tölthető le.
Koronavírus járvány címlista bővítése
Az elmúlt napokban rengeteg új tétellel bővítettük a KORONAVIRUS2020 jelzésű, heti rendszerességgel aratott részgyűjteményünk seed listáját. A koronavírus okozta járvánnyal kapcsolatos híreket és egyéb online forrásokat 2020 februárjában kezdtük el archiválni. Az akkor összeválogatott 133 tételes címlista mára nagyrészt elavult és időközben sok újabb információforrás, valamint címke jelent meg, ezért már nagyon időszerű volt a frissítése. A jelenlegi listában 328 tételt (1012 URL címet) tartunk nyilván, típus szerint csoportosítva.
Holland videósorozat a webarchiválásról
A holland nemzeti könyvtár a január 31. és február 4. között zajló „webarchiválási hét” keretében egy három részből álló sorozatot jelentetett meg a YouTube-on, melyben Kees Teszelszky, a digitális gyűjtemény magyar származású kurátora beszél a holland web kezdeteiről, az archiválás fontosságáról, a válogatási elvekről, a részgyűjteményekről és a jövőbeli tervekről. Hollandiában 15 évvel ezelőtt indult a szelektív webarchiválás, jelenleg már 21 ezer webhelyet mentenek, viszont webtér szintű aratásokra nincs lehetőségük az ottani jogi környezet miatt.
A videók elérhetősége:
https://www.youtube.com/watch?v=WGZltMnSQgE
https://www.youtube.com/watch?v=lTK7eW_M14E
https://www.youtube.com/watch?v=Seq44U-jXJE
(A fogaskerék ikonra kattintva bekapcsolható az automatikus angol vagy magyar feliratozás.)
A webarchiválásról a Kossuth Rádióban
Az MR1 Kossuth Rádió „Napközben” c. műsorában 2022. január 18-án beszélgetés hangzott el Moldován Istvánnal az OSZK-ban folyó webarchiválásról. A felvétel a MédiaKlikk oldalon hallgatható vissza 09:51:20-tól.
A téli olimpiával kapcsolatos hírek archiválása
Március közepéig heti rendszerességgel aratjuk a pekingi téli olimpiai játékokkal kapcsolatos híreket és egyéb weboldalakat. A címlista itt nézhető meg.
3K cikk az archiváló szoftverekről
A Könyv, Könyvtár, Könyvtáros folyóirat 2021/9. számában megjelent Drótos László cikke „Crawlerek és scraperek” címmel azokról a különféle programokról, amelyeket az elmúlt év folyamán teszteltünk a Webarchiválási Osztályon.
Az OSZK webarchívum 2021-es összesített adatai
Elkészültek az összesített statisztikák a webarchívum tavalyi gyarapodásáról és aktuális méretéről. Ezek közül a legfontosabbak a szövegesen és diagramok formájában itt láthatók.
Webtér aratás statisztikái
Elkészült a 2021. december 26-án indított WEBTER aratás részletes statisztikája. Az oldalképekre vonatkozó adatok nem véglegesek, mivel még folyik a kezdőoldalak „lefotózása”, továbbá nincs benne a statisztikában annak a 12,5 ezer webhelynek az adata, melyeknél hiányzik a robots.txt fájl, mert ezeket egy külön menetben arattuk le. Ilyen „pillanatfelvételt” évente kétszer csinálunk minden olyan nyilvános magyar domén vagy aldomén címről, amiről tudomásunk van. A robot a kezdőlaptól csak 2 szintig követi a linkeket és erősen be van korlátozva a webhelyenként letölthető tartalom mennyisége, a fájlok száma és mérete is. Ez alkalommal 7 nap 16 óra 26 perc után állítottuk le a programot, mivel már alig talált újabb URL címeket. Ez alatt az idő alatt összesen több mint 74 millió fájlt töltött le a Heritrix, ebből 30 millió volt az új, ami eltárolásra került 2,4 terabájt összméretben.
E-periodikák nyilvántartásának bővítése
Az elmúlt néhány hétben jelentősen bővítettük az időszakosan megjelenő kiadványok weboldalainak címlistáját. A nemzetközi ISSN Portal adatbázisa és néhány más nyilvántartás alapján mintegy 800, eddig még nem archivált URL címet vettünk fel az ELPERI gyűjteménybe, mely így már több mint 6500 tételes és a hónap végén kerül újra aratásra. A folyóiratok és magazinok mellett most sok (kb. 160) diákújságot és iskolai évkönyvet is regisztráltunk a due.hu és a fisz.hu portálok – sajnos már eléggé elavult – katalógusai alapján.