A sulinet.hu végződésű címek ellenőrzése

2020 szeptembere óta a Kormányzati Informatikai Fejlesztési Ügynökség a sulinet.hu domén alá regisztrált web- és mail-szervereket fokozatosan átállította az edu.hu doménre. Bár még többnyire élnek a régi sulinetes címek is és általában át vannak irányítva az újra, de már mi is elkezdtük ezt a változást átvezetni a nyilvántartásunkban. Az elmúlt napokban elvégzett ellenőrzés szerint az OKTAT részgyűjteményünkben található 786 darab sulinet.hu végződésű URL közül 697 webhelynek van alternatív címe (637 az edu.hu-ra, a többi pedig más aldoménre költözött). Mindössze 89 olyan oktatási honlap maradt, amelynél nem sikerült más elérhetőséget találni és közülük 40-nél már a sulinetes cím sem működik.

Paralimpiai hírek mentése

Az augusztus 25-én kezdődő Tokiói Nyári Paralimpiai Játékokról szóló hírrovatokkal, a Magyar Paralimpiai Bizottság honlapjával, továbbá a Bizottság és a magyar csapat közösségi média oldalaival egészítettük ki a NYAROL2020 nevű címlistát és elkezdtük ezek archiválását.

Webtér szintű seed kereső frissült

Elkészültek a kis méretű oldalképek a magyar webtér aratásához használt címlistához és a legtöbb cím esetében már az Internet Archive-ra mutató linkek is megjelennek a kereső találati listájában. Mivel ezzel az űrlappal az URL-ek mellett a weboldalak title adatában is lehet keresni, ezért az elmúlt hetekben egyenként megnéztük azt a 38.394 címet, ahol automatikusan nem sikerült a title-t begyűjteni. Az ellenőrzés eredményeként 18.738 működő webhelyet találtunk és 81 kivételével valamiféle nevet is sikerült hozzáadni ezekhez. A teljes címlista jelenleg 42.747 tételes.

Webtér szintű seed kereső

A Webarchívum/Keresés menüpont alatt elérhető egy új kereső űrlap, amivel a webtér szintű aratásnál kiinduló (seed) címként használt URL-ek, valamint az ezekhez tartozó weboldalakról nagyrészt automatikus módszerekkel begyűjtött title metaadatok között lehet keresni. Az adatbázis most közel 441 ezer tételt tartalmaz és bár már többféle tisztítási fázison átment, még eléggé “szemetes”, sok benne a nem működő vagy duplum URL, a hiányzó vagy semmitmondó név. A ** NINCS CÍM ** jelzésű, hiányzó title adatok pótlása emberi munkával folyamatban van. Ugyancsak folyik a kis méretű oldalképek gyártása és az Internet Archive-ban levő mentésekre mutató linkek ellenőrzése, így ezek fokozatosan jelennek majd meg a találati listákban  a következő hetekben.

TMT cikk a közösségi média megőrzéséről

A Tudományos és Műszaki Tájékoztatás idei 7. számában megjelent Drótos László cikke “Az idő fogságában – Ki őrzi meg a közösségi médiát?” címmel. A tanulmány a Facebook, az Instagram és a Twitter bejegyzések archiválhatóságára vonatkozó OSZK-s tesztek eredményét ismerteti, bemutatja a szóba jöhető módszereket és szoftvereket, valamint egy rövid nemzetközi kitekintést is ad erről a speciális szakterületről.

Nyári webtér aratás

Július 7. és 12. között lefutott egy újabb, félévente ismételt, “pillanatfelvétel” jellegű nagy aratás az összes eddig általunk ismert magyar domén és aldomén címről. A tavaly december végi 251 ezer tételes seed listához képest most jelentősen több, 434 ezer URL címről indítottuk el a robotot, amely 6 nap és 9 óra alatt közel 72 millió fájlt töltött le. Ennek több mint a fele volt az új tartalom, 3,2 terabájt összméretben. A részletesebb statisztika itt található. (Az oldalképekre vonatkozó adatok csak ideiglenesek, mert az ezeket készítő script kb. az egyharmadánál jár a feladatnak. Továbbá a belinkelt statisztikában nincs benne az a 12,5 ezer webszerver, amelyekhez nem tartozik robots.txt, mivel ezeket egy külön menetben arattuk le.)