A Könyvtári Intézet 2022. szeptember 27-30. között ismét megrendezi „Az internet archiválása mint közgyűjteményi feladat” elnevezésű tanfolyamát. További információk itt találhatók.
Webtér aratás 2022/1
2022. június 24. és július 20. között három menetben lefutott az idei első webtér szintű aratás, és mostanra elkészültek az indexfájlok és az oldalképek is. Összességében 1,37 millió seed címről elindulva mintegy 180 millió URL talált a Heritrix robot és több mint 174 milliót sikeresen le is töltött, melyből 90 millió volt a korábban nem archivált vagy időközben megváltozott fájl. Méretileg a letöltött tartalom 8,89 terabájt, a ténylegesen eltárolt anyag pedig 6,13 terabájt lett. Az előző, 2021 december végén indított webtér aratáshoz képest darabszámban 3-szor, méretben pedig 2,5-szer több tartalmat mentettünk le, ami a megnövelt aratási mélységnek és futási időnek, valamint a seed lista megháromszorozásának köszönhető. A részletes statisztika – a korábbi aratások adataival együtt – itt nézhető meg.
A seed URL címekhez megpróbáltuk a kezdőoldal title adatát is letölteni, ami szintén csak több menetben, különböző szoftvereket használva sikerült. Végül 90 ezer „névtelen” webhely maradt, a többiről van legalább valamilyen – sajnos gyakran semmitmondó – névadatunk. A webtér címlistában itt lehet keresni.
Keresés az ukrajnai hírek szövegében
Az https://ukrajnapublic.webharvest.oszk.hu/solrwayback/ oldalon a 2022-ben kezdődött ukrán–orosz konfliktussal, majd háborúval kapcsolatos hírek teljes szövegében lehet kereséseket indítani, valamint a „TOOLBOX” linkre kattintva különféle statisztikákat készíteni ezekről a lementett tartalmakról. Maguk az archivált cikkek jogi okokból nem nézhetők meg a nyilvános felületen, de ha az archiválás dátuma alatti „URL:” sorban levő webcímet lemásoljuk és megnyitjuk egy böngészőlapon, akkor az eredeti híroldal jelenik meg (amennyiben még elérhető az élő weben). A szövegkorpusz elemzése és vizualizációja pedig az OSZK Digitális Bölcsészeti Központja által gondozott https://dhupla.hu/page/kreativ/ oldalon érhető el.
Zárt archívum hozzáférés
Júliustól az OSZK Általános Olvasótermében elhelyezett dedikált gépekről elérhetővé vált a webarchívum korábban zárt része is. A nemzeti könyvtár honlapján megjelent hír itt érhető el.
WARCnet találkozó Londonban
A webarchívumok kutatási célú hasznosítására 2020-ban indult nemzetközi WARCnet projekt idei első találkozójára a University of London School of Advanced Study nevű posztgraduális intézményében került sor június 13-15. között. A megbeszéléseken az OSZK webarchívumát Németh Márton képviselte, aki a webarchiválás és a felsőoktatás kapcsolatával fog foglalkozni a projekten belül.
Szervezeti változás
2022. június 1-től a Webarchiválási Osztály munkatársai az OSZK Digitális Bölcsészeti Központján belül a Digitális Filológiai és Webarchiválási Csoport tagjaiként dolgoznak tovább. A szervezeti változásnak köszönhetően a webarchívum kutatási célú hasznosítása nagyobb figyelmet kap a jövőben.
IIPC WAC előadás
Az IIPC szervezet által megrendezett idei Web Archiving Conference mai napján Németh Márton és Kalcsó Gyula tartott online előadást az ukrajnai hírek szóhasználatának időbeli változásáról „Data extraction & visualization of harvested WARC files at National Széchényi Library” címmel. A vizualizációk a dHUpla – Digitális Bölcsészeti Platformon tekinthetők meg.
BOBCATSSS előadás a webarchiválásról
A debreceni BOBCATSSS 2022 konferencia első napján Németh Márton „Web Archiving in Higher Education” címmel tartott előadást a webarchiválás és a webarchívumok fontosságáról a felsőoktatásban. A prezentáció innen tölthető le.
Podcast archiválás
Kísérleti jelleggel elkezdtük a magyar podcast csatornák archiválását. Ezek weboldalait már eddig is arattuk negyedévente a MEDIA gyűjtemény részeként, de magukat az adásokat a legtöbb esetben nem tudta lementeni a robot, mivel azok a weben általában csak a különböző streaming platformok interaktív lejátszó felületein keresztül érhetők el, sokszor letöltési lehetőség nélkül. Mostantól egy Chrome kiegészítő segítségével – emberi közreműködéssel – a hangfájlokat is lementjük és egy külön alkönyvtárban jelenítjük majd meg őket a zárt archívumon belül, a podcast weblapja mellett. Amire pedig sikerül nyilvános szolgáltatási engedélyt szerezni, az a tervek szerint az EPA gyűjteményében is elérhetővé válik (erre már itt van egy példa). Első körben 17, főként könyves vagy egyéb kulturális, továbbá tudományos és informatikai témájú műsort archiváltunk, közel kétezer hangfájlt, 125 GB összméretben.
Videóinterjú Németh Mártonnal
„60 terrabájtnyi weboldalt őriz a nemzeti könyvtár!” címmel felkerült egy videó az OSZK YouTube csatornájára, melyben Németh Márton az áprilisi Networkshop konferencián elhangzott előadása témájáról, a webarchívum nemzetközi kapcsolatairól beszél. A felvétel itt nézhető meg.