2021 őszi WARCnet meeting

Elkezdődött a webarchívumok kutatási célú hasznosításával foglalkozó WARCnet projekt résztvevőinek három napos találkozója, melyen az OSZK-t Németh Márton képviseli. Az eredetileg Londonba tervezett rendezvény a járványhelyzet miatt a dániai Aarhusban került megrendezésre, hibrid formában. A részletes program a projekt honlapján olvasható.

Networkshop 2021 konferenciakiadvány

Megjelent az idei Networkshop konferencia válogatott előadásait tartalmazó kötet, benne Drótos László „A közösségi média archiválásának nehézségei” című írása. A kiadvány az MTA könyvtárának repozitóriumából tölthető le PDF formátumban.

A zárt archívum szövegének indexelése

Több hónapnyi feldolgozás után kereshetővé vált a zárt webarchívumba 2017 óta begyűjtött dokumentumok teljes szövege. A Solr 31 ezer WARC fájlt indexelt le (további 773 esetben pedig hibát jelzett), az index fájl 966 millió URL-t tartalmaz és a mérete 2,8 terabájt. A visszakereső és megjelenítő eszköz ugyanaz a dán fejlesztésű Solrwayback lesz, amit a nyilvános gyűjteményben is használunk.

PhD dolgozat a webarchiválásról

A Debreceni Egyetem elektronikus archívumából nyilvánosan letölthető Németh Márton „A webarchiválás elméletének és gyakorlatának alapelemei” című disszertációja, melyet az Informatikai Tudományok Doktori Iskola keretében készített. A dolgozat védésére 2021. október 15-én kerül sor. (Frissítés: A dolgozat „summa cum laude” minősítést kapott. Gratulálunk a kollégánknak!)

A sulinet.hu végződésű címek ellenőrzése

2020 szeptembere óta a Kormányzati Informatikai Fejlesztési Ügynökség a sulinet.hu domén alá regisztrált web- és mail-szervereket fokozatosan átállította az edu.hu doménre. Bár még többnyire élnek a régi sulinetes címek is és általában át vannak irányítva az újra, de már mi is elkezdtük ezt a változást átvezetni a nyilvántartásunkban. Az elmúlt napokban elvégzett ellenőrzés szerint az OKTAT részgyűjteményünkben található 786 darab sulinet.hu végződésű URL közül 697 webhelynek van alternatív címe (637 az edu.hu-ra, a többi pedig más aldoménre költözött). Mindössze 89 olyan oktatási honlap maradt, amelynél nem sikerült más elérhetőséget találni és közülük 40-nél már a sulinetes cím sem működik.

Paralimpiai hírek mentése

Az augusztus 25-én kezdődő Tokiói Nyári Paralimpiai Játékokról szóló hírrovatokkal, a Magyar Paralimpiai Bizottság honlapjával, továbbá a Bizottság és a magyar csapat közösségi média oldalaival egészítettük ki a NYAROL2020 nevű címlistát és elkezdtük ezek archiválását.

Webtér szintű seed kereső frissült

Elkészültek a kis méretű oldalképek a magyar webtér aratásához használt címlistához és a legtöbb cím esetében már az Internet Archive-ra mutató linkek is megjelennek a kereső találati listájában. Mivel ezzel az űrlappal az URL-ek mellett a weboldalak title adatában is lehet keresni, ezért az elmúlt hetekben egyenként megnéztük azt a 38.394 címet, ahol automatikusan nem sikerült a title-t begyűjteni. Az ellenőrzés eredményeként 18.738 működő webhelyet találtunk és 81 kivételével valamiféle nevet is sikerült hozzáadni ezekhez. A teljes címlista jelenleg 42.747 tételes.