A zárt archívum szövegének indexelése

Több hónapnyi feldolgozás után kereshetővé vált a zárt webarchívumba 2017 óta begyűjtött dokumentumok teljes szövege. A Solr 31 ezer WARC fájlt indexelt le (további 773 esetben pedig hibát jelzett), az index fájl 966 millió URL-t tartalmaz és a mérete 2,8 terabájt. A visszakereső és megjelenítő eszköz ugyanaz a dán fejlesztésű Solrwayback lesz, amit a nyilvános gyűjteményben is használunk.

PhD dolgozat a webarchiválásról

A Debreceni Egyetem elektronikus archívumából nyilvánosan letölthető Németh Márton „A webarchiválás elméletének és gyakorlatának alapelemei” című disszertációja, melyet az Informatikai Tudományok Doktori Iskola keretében készített. A dolgozat védésére 2021. október 15-én kerül sor. (Frissítés: A dolgozat „summa cum laude” minősítést kapott. Gratulálunk a kollégánknak!)

A sulinet.hu végződésű címek ellenőrzése

2020 szeptembere óta a Kormányzati Informatikai Fejlesztési Ügynökség a sulinet.hu domén alá regisztrált web- és mail-szervereket fokozatosan átállította az edu.hu doménre. Bár még többnyire élnek a régi sulinetes címek is és általában át vannak irányítva az újra, de már mi is elkezdtük ezt a változást átvezetni a nyilvántartásunkban. Az elmúlt napokban elvégzett ellenőrzés szerint az OKTAT részgyűjteményünkben található 786 darab sulinet.hu végződésű URL közül 697 webhelynek van alternatív címe (637 az edu.hu-ra, a többi pedig más aldoménre költözött). Mindössze 89 olyan oktatási honlap maradt, amelynél nem sikerült más elérhetőséget találni és közülük 40-nél már a sulinetes cím sem működik.

Paralimpiai hírek mentése

Az augusztus 25-én kezdődő Tokiói Nyári Paralimpiai Játékokról szóló hírrovatokkal, a Magyar Paralimpiai Bizottság honlapjával, továbbá a Bizottság és a magyar csapat közösségi média oldalaival egészítettük ki a NYAROL2020 nevű címlistát és elkezdtük ezek archiválását.

Webtér szintű seed kereső frissült

Elkészültek a kis méretű oldalképek a magyar webtér aratásához használt címlistához és a legtöbb cím esetében már az Internet Archive-ra mutató linkek is megjelennek a kereső találati listájában. Mivel ezzel az űrlappal az URL-ek mellett a weboldalak title adatában is lehet keresni, ezért az elmúlt hetekben egyenként megnéztük azt a 38.394 címet, ahol automatikusan nem sikerült a title-t begyűjteni. Az ellenőrzés eredményeként 18.738 működő webhelyet találtunk és 81 kivételével valamiféle nevet is sikerült hozzáadni ezekhez. A teljes címlista jelenleg 42.747 tételes.

Webtér szintű seed kereső

A Webarchívum/Keresés menüpont alatt elérhető egy új kereső űrlap, amivel a webtér szintű aratásnál kiinduló (seed) címként használt URL-ek, valamint az ezekhez tartozó weboldalakról nagyrészt automatikus módszerekkel begyűjtött title metaadatok között lehet keresni. Az adatbázis most közel 441 ezer tételt tartalmaz és bár már többféle tisztítási fázison átment, még eléggé „szemetes”, sok benne a nem működő vagy duplum URL, a hiányzó vagy semmitmondó név. A ** NINCS CÍM ** jelzésű, hiányzó title adatok pótlása emberi munkával folyamatban van. Ugyancsak folyik a kis méretű oldalképek gyártása és az Internet Archive-ban levő mentésekre mutató linkek ellenőrzése, így ezek fokozatosan jelennek majd meg a találati listákban  a következő hetekben.