Több hónapnyi feldolgozás után kereshetővé vált a zárt webarchívumba 2017 óta begyűjtött dokumentumok teljes szövege. A Solr 31 ezer WARC fájlt indexelt le (további 773 esetben pedig hibát jelzett), az index fájl 966 millió URL-t tartalmaz és a mérete 2,8 terabájt. A visszakereső és megjelenítő eszköz ugyanaz a dán fejlesztésű Solrwayback lesz, amit a nyilvános gyűjteményben is használunk.
PhD dolgozat a webarchiválásról
A Debreceni Egyetem elektronikus archívumából nyilvánosan letölthető Németh Márton „A webarchiválás elméletének és gyakorlatának alapelemei” című disszertációja, melyet az Informatikai Tudományok Doktori Iskola keretében készített. A dolgozat védésére 2021. október 15-én kerül sor. (Frissítés: A dolgozat „summa cum laude” minősítést kapott. Gratulálunk a kollégánknak!)
Új részgyűjtemény: Országgyűlési választás 2022
Elkezdtük összegyűjteni és heti rendszerességgel menteni a jövő évi parlamenti választásokkal és az idei ellenzéki előválasztással kapcsolatos híreket és egyéb weboldalakat. Az aktuális címlista itt nézhető meg.
Webarchiválási tanfolyam szeptember végén
2021. szeptember 28. és október 1. között a Könyvtári Intézet újra megrendezi „Az internet archiválása mint közgyűjteményi feladat” című ingyenes tanfolyamát. Jelentkezni szeptember 14-ig lehet a KI honlapján keresztül.
ITlib cikk a Rákóczi archívumról
A szlovák ITlib – Informačné technológie a knižnice folyóiratban megjelent Németh Márton angol nyelvű cikke a Rákóczi emlékév alkalmából digitalizált és digitálisan született, valamint webarchiválással lementett dokumentumokból összeállított gyűjteményünkről „Rákóczi thematic digital archive at the National Széchényi Library” címmel.
A sulinet.hu végződésű címek ellenőrzése
2020 szeptembere óta a Kormányzati Informatikai Fejlesztési Ügynökség a sulinet.hu domén alá regisztrált web- és mail-szervereket fokozatosan átállította az edu.hu doménre. Bár még többnyire élnek a régi sulinetes címek is és általában át vannak irányítva az újra, de már mi is elkezdtük ezt a változást átvezetni a nyilvántartásunkban. Az elmúlt napokban elvégzett ellenőrzés szerint az OKTAT részgyűjteményünkben található 786 darab sulinet.hu végződésű URL közül 697 webhelynek van alternatív címe (637 az edu.hu-ra, a többi pedig más aldoménre költözött). Mindössze 89 olyan oktatási honlap maradt, amelynél nem sikerült más elérhetőséget találni és közülük 40-nél már a sulinetes cím sem működik.
Paralimpiai hírek mentése
Az augusztus 25-én kezdődő Tokiói Nyári Paralimpiai Játékokról szóló hírrovatokkal, a Magyar Paralimpiai Bizottság honlapjával, továbbá a Bizottság és a magyar csapat közösségi média oldalaival egészítettük ki a NYAROL2020 nevű címlistát és elkezdtük ezek archiválását.
Webtér szintű seed kereső frissült
Elkészültek a kis méretű oldalképek a magyar webtér aratásához használt címlistához és a legtöbb cím esetében már az Internet Archive-ra mutató linkek is megjelennek a kereső találati listájában. Mivel ezzel az űrlappal az URL-ek mellett a weboldalak title adatában is lehet keresni, ezért az elmúlt hetekben egyenként megnéztük azt a 38.394 címet, ahol automatikusan nem sikerült a title-t begyűjteni. Az ellenőrzés eredményeként 18.738 működő webhelyet találtunk és 81 kivételével valamiféle nevet is sikerült hozzáadni ezekhez. A teljes címlista jelenleg 42.747 tételes.
Szakirodalmi bibliográfia frissítése
Főként 2020 óta megjelent publikációkkal bővült az internetes tartalmak megőrzésével foglalkozó szakirodalmi válogatásunk. A 2020. február 17-i korábbi állapothoz képest most 217 rekorddal – köztük szakdolgozatok és doktori disszertációk adataival – bővült a lista, mely így már 704 tételes és többféle formátumban is letölthető.
Webtér szintű seed kereső
A Webarchívum/Keresés menüpont alatt elérhető egy új kereső űrlap, amivel a webtér szintű aratásnál kiinduló (seed) címként használt URL-ek, valamint az ezekhez tartozó weboldalakról nagyrészt automatikus módszerekkel begyűjtött title metaadatok között lehet keresni. Az adatbázis most közel 441 ezer tételt tartalmaz és bár már többféle tisztítási fázison átment, még eléggé „szemetes”, sok benne a nem működő vagy duplum URL, a hiányzó vagy semmitmondó név. A ** NINCS CÍM ** jelzésű, hiányzó title adatok pótlása emberi munkával folyamatban van. Ugyancsak folyik a kis méretű oldalképek gyártása és az Internet Archive-ban levő mentésekre mutató linkek ellenőrzése, így ezek fokozatosan jelennek majd meg a találati listákban a következő hetekben.