2021. szeptember 28. és október 1. között a Könyvtári Intézet újra megrendezi „Az internet archiválása mint közgyűjteményi feladat” című ingyenes tanfolyamát. Jelentkezni szeptember 14-ig lehet a KI honlapján keresztül.
ITlib cikk a Rákóczi archívumról
A szlovák ITlib – Informačné technológie a knižnice folyóiratban megjelent Németh Márton angol nyelvű cikke a Rákóczi emlékév alkalmából digitalizált és digitálisan született, valamint webarchiválással lementett dokumentumokból összeállított gyűjteményünkről „Rákóczi thematic digital archive at the National Széchényi Library” címmel.
A sulinet.hu végződésű címek ellenőrzése
2020 szeptembere óta a Kormányzati Informatikai Fejlesztési Ügynökség a sulinet.hu domén alá regisztrált web- és mail-szervereket fokozatosan átállította az edu.hu doménre. Bár még többnyire élnek a régi sulinetes címek is és általában át vannak irányítva az újra, de már mi is elkezdtük ezt a változást átvezetni a nyilvántartásunkban. Az elmúlt napokban elvégzett ellenőrzés szerint az OKTAT részgyűjteményünkben található 786 darab sulinet.hu végződésű URL közül 697 webhelynek van alternatív címe (637 az edu.hu-ra, a többi pedig más aldoménre költözött). Mindössze 89 olyan oktatási honlap maradt, amelynél nem sikerült más elérhetőséget találni és közülük 40-nél már a sulinetes cím sem működik.
Paralimpiai hírek mentése
Az augusztus 25-én kezdődő Tokiói Nyári Paralimpiai Játékokról szóló hírrovatokkal, a Magyar Paralimpiai Bizottság honlapjával, továbbá a Bizottság és a magyar csapat közösségi média oldalaival egészítettük ki a NYAROL2020 nevű címlistát és elkezdtük ezek archiválását.
Webtér szintű seed kereső frissült
Elkészültek a kis méretű oldalképek a magyar webtér aratásához használt címlistához és a legtöbb cím esetében már az Internet Archive-ra mutató linkek is megjelennek a kereső találati listájában. Mivel ezzel az űrlappal az URL-ek mellett a weboldalak title adatában is lehet keresni, ezért az elmúlt hetekben egyenként megnéztük azt a 38.394 címet, ahol automatikusan nem sikerült a title-t begyűjteni. Az ellenőrzés eredményeként 18.738 működő webhelyet találtunk és 81 kivételével valamiféle nevet is sikerült hozzáadni ezekhez. A teljes címlista jelenleg 42.747 tételes.
Szakirodalmi bibliográfia frissítése
Főként 2020 óta megjelent publikációkkal bővült az internetes tartalmak megőrzésével foglalkozó szakirodalmi válogatásunk. A 2020. február 17-i korábbi állapothoz képest most 217 rekorddal – köztük szakdolgozatok és doktori disszertációk adataival – bővült a lista, mely így már 704 tételes és többféle formátumban is letölthető.
Webtér szintű seed kereső
A Webarchívum/Keresés menüpont alatt elérhető egy új kereső űrlap, amivel a webtér szintű aratásnál kiinduló (seed) címként használt URL-ek, valamint az ezekhez tartozó weboldalakról nagyrészt automatikus módszerekkel begyűjtött title metaadatok között lehet keresni. Az adatbázis most közel 441 ezer tételt tartalmaz és bár már többféle tisztítási fázison átment, még eléggé „szemetes”, sok benne a nem működő vagy duplum URL, a hiányzó vagy semmitmondó név. A ** NINCS CÍM ** jelzésű, hiányzó title adatok pótlása emberi munkával folyamatban van. Ugyancsak folyik a kis méretű oldalképek gyártása és az Internet Archive-ban levő mentésekre mutató linkek ellenőrzése, így ezek fokozatosan jelennek majd meg a találati listákban a következő hetekben.
TMT cikk a közösségi média megőrzéséről
A Tudományos és Műszaki Tájékoztatás idei 7. számában megjelent Drótos László cikke „Az idő fogságában – Ki őrzi meg a közösségi médiát?” címmel. A tanulmány a Facebook, az Instagram és a Twitter bejegyzések archiválhatóságára vonatkozó OSZK-s tesztek eredményét ismerteti, bemutatja a szóba jöhető módszereket és szoftvereket, valamint egy rövid nemzetközi kitekintést is ad erről a speciális szakterületről.
Nyári webtér aratás
Július 7. és 12. között lefutott egy újabb, félévente ismételt, „pillanatfelvétel” jellegű nagy aratás az összes eddig általunk ismert magyar domén és aldomén címről. A tavaly december végi 251 ezer tételes seed listához képest most jelentősen több, 434 ezer URL címről indítottuk el a robotot, amely 6 nap és 9 óra alatt közel 72 millió fájlt töltött le. Ennek több mint a fele volt az új tartalom, 3,2 terabájt összméretben. A részletesebb statisztika itt található. (Az oldalképekre vonatkozó adatok csak ideiglenesek, mert az ezeket készítő script kb. az egyharmadánál jár a feladatnak. Továbbá a belinkelt statisztikában nincs benne az a 12,5 ezer webszerver, amelyekhez nem tartozik robots.txt, mivel ezeket egy külön menetben arattuk le.)
Középiskolásoknak a digitális megőrzéséről
Felkerült a honlapra egy középiskolásoknak szánt oktatási segédlet vázlata „Mentsük le az internetet! – Internetes tartalmak megőrzése intézményi és személyes archiválással” címmel. Ez a szöveg még 2019 végén készült a KDS pályázat keretében egy multimédiás tananyaghoz. A benne levő linkek és adatok most frissítve lettek.