Elkezdődött a webarchívumok kutatási célú hasznosításával foglalkozó WARCnet projekt résztvevőinek három napos találkozója, melyen az OSZK-t Németh Márton képviseli. Az eredetileg Londonba tervezett rendezvény a járványhelyzet miatt a dániai Aarhusban került megrendezésre, hibrid formában. A részletes program a projekt honlapján olvasható.
Networkshop 2021 konferenciakiadvány
Megjelent az idei Networkshop konferencia válogatott előadásait tartalmazó kötet, benne Drótos László „A közösségi média archiválásának nehézségei” című írása. A kiadvány az MTA könyvtárának repozitóriumából tölthető le PDF formátumban.
A zárt archívum szövegének indexelése
Több hónapnyi feldolgozás után kereshetővé vált a zárt webarchívumba 2017 óta begyűjtött dokumentumok teljes szövege. A Solr 31 ezer WARC fájlt indexelt le (további 773 esetben pedig hibát jelzett), az index fájl 966 millió URL-t tartalmaz és a mérete 2,8 terabájt. A visszakereső és megjelenítő eszköz ugyanaz a dán fejlesztésű Solrwayback lesz, amit a nyilvános gyűjteményben is használunk.
PhD dolgozat a webarchiválásról
A Debreceni Egyetem elektronikus archívumából nyilvánosan letölthető Németh Márton „A webarchiválás elméletének és gyakorlatának alapelemei” című disszertációja, melyet az Informatikai Tudományok Doktori Iskola keretében készített. A dolgozat védésére 2021. október 15-én kerül sor. (Frissítés: A dolgozat „summa cum laude” minősítést kapott. Gratulálunk a kollégánknak!)
Új részgyűjtemény: Országgyűlési választás 2022
Elkezdtük összegyűjteni és heti rendszerességgel menteni a jövő évi parlamenti választásokkal és az idei ellenzéki előválasztással kapcsolatos híreket és egyéb weboldalakat. Az aktuális címlista itt nézhető meg.
Webarchiválási tanfolyam szeptember végén
2021. szeptember 28. és október 1. között a Könyvtári Intézet újra megrendezi „Az internet archiválása mint közgyűjteményi feladat” című ingyenes tanfolyamát. Jelentkezni szeptember 14-ig lehet a KI honlapján keresztül.
ITlib cikk a Rákóczi archívumról
A szlovák ITlib – Informačné technológie a knižnice folyóiratban megjelent Németh Márton angol nyelvű cikke a Rákóczi emlékév alkalmából digitalizált és digitálisan született, valamint webarchiválással lementett dokumentumokból összeállított gyűjteményünkről „Rákóczi thematic digital archive at the National Széchényi Library” címmel.
A sulinet.hu végződésű címek ellenőrzése
2020 szeptembere óta a Kormányzati Informatikai Fejlesztési Ügynökség a sulinet.hu domén alá regisztrált web- és mail-szervereket fokozatosan átállította az edu.hu doménre. Bár még többnyire élnek a régi sulinetes címek is és általában át vannak irányítva az újra, de már mi is elkezdtük ezt a változást átvezetni a nyilvántartásunkban. Az elmúlt napokban elvégzett ellenőrzés szerint az OKTAT részgyűjteményünkben található 786 darab sulinet.hu végződésű URL közül 697 webhelynek van alternatív címe (637 az edu.hu-ra, a többi pedig más aldoménre költözött). Mindössze 89 olyan oktatási honlap maradt, amelynél nem sikerült más elérhetőséget találni és közülük 40-nél már a sulinetes cím sem működik.
Paralimpiai hírek mentése
Az augusztus 25-én kezdődő Tokiói Nyári Paralimpiai Játékokról szóló hírrovatokkal, a Magyar Paralimpiai Bizottság honlapjával, továbbá a Bizottság és a magyar csapat közösségi média oldalaival egészítettük ki a NYAROL2020 nevű címlistát és elkezdtük ezek archiválását.
Webtér szintű seed kereső frissült
Elkészültek a kis méretű oldalképek a magyar webtér aratásához használt címlistához és a legtöbb cím esetében már az Internet Archive-ra mutató linkek is megjelennek a kereső találati listájában. Mivel ezzel az űrlappal az URL-ek mellett a weboldalak title adatában is lehet keresni, ezért az elmúlt hetekben egyenként megnéztük azt a 38.394 címet, ahol automatikusan nem sikerült a title-t begyűjteni. Az ellenőrzés eredményeként 18.738 működő webhelyet találtunk és 81 kivételével valamiféle nevet is sikerült hozzáadni ezekhez. A teljes címlista jelenleg 42.747 tételes.