Az EGESZSEG részgyűjtemény első aratása

Március 10. és 11. között lefutott az újonnan létrehozott „Egészségügy, szociális szféra” című részgyűjtemény első mentése, melyben jelenleg 7593 webhely címe található. Az egészségügyi szervezetek, kórházak, rendelőintézetek, fogászatok, optikák, orvosok stb. honlapjai és blogjai mellett az állatorvostudománnyal, a természetgyógyászattal, a gyógyszerészettel, továbbá a fogyatékkal élőkkel és szociális ellátásra szorulókkal kapcsolatos oldalakat is összegyűjtöttük. A címlista itt listázható ki.

A 2022. évi tömeges aratások adatai

Elkészült a tavalyi aratások összesített adatait tartalmazó táblázat és grafikon, melybe a webtér, a tematikus részgyűjtemények, valamint a műfaji alapon válogatott e-periodikák és podcastok weboldalai számítanak bele. (Nincsenek tehát benne a podcast csatornákról külön letöltött hangfájlok, a főbb híroldalak napi mentései, az események és földrajzi helyek alapján zajló aratások, valamint a nyilvános szerveren levő archív webhelyek.) 2022-ben szerettük volna legalább megduplázni az év folyamán begyűjtött tartalmat, ezért a tömeges aratásokat nagyobb mélységben és hosszabb ideig futtattuk, továbbá jelentősen bővítettük az emberi munkával válogatott és az automatikusan gyűjtött URL listákat. Bár utóbbi nagyon „szemetes” lett, ami meglátszik a sikertelenül bejárt seed címek magas számán, a kitűzött célt így is meghaladtuk: a 2021. évi 171,1 millió helyett tavaly 448,5 millió új vagy megváltozott címet mentett el a robot, 39,9 terabájt összméretben a korábbi 16,2 terabájthoz képest. A 2022-es statisztika itt nézhető meg, a 2021-es pedig itt található.

Elkészült a decemberi WEBTER statisztika

A 2022. december 2. és 20. között három részletben lezajlott webtér szintű aratás összesített adatai felkerültek a honlapra. Mivel a fél évvel korábbihoz képest nem változtattunk a kiindulásként megadott címlistán és az aratási paramétereken, ezért a két archiválási ciklus eredménye jól összehasonlítható. A legfontosabb különbség az, hogy bár most valamivel kevesebb fájlt töltött le a robot, mint nyáron, de ebből darabszámra több volt az új vagy megváltozott tartalom, és összméretben is többet, a korábbi 6,1 helyett közel 6,7 terabájtot tárolt el a szerver.

A koronavirus.gov.hu honlap archivált verziója

2023. január 1-től megszűnt a koronavirus.gov.hu címen 2020 márciusa óta működő kormányzati tájékoztató oldal. A hivatalos járványügyi adatokat és híreket közlő honlapot rendszeresen archiváltuk a KORONAVIRUS2020 nevű, eseményalapú gyűjteményünk részeként, de a megszűnés előtti napokban készítettünk róla néhány teljes mentést a zárt és a nyilvános webarchívumba is, így utóbbit bárki meg tudja nézni a https://webarchivum.oszk.hu/demo-kezdolap/#egeszseg oldalról elindulva. Mivel a Kormány 626/2020. (XII. 22.) számú rendeletének 6. § (3) pontja szerint a kormányzati és önkormányzati tartalomszolgáltatások esetében nem kell külön szerződést kötnie az OSZK-nak az archivált verzió nyilvános szolgáltatására, ezért tudtuk ilyen gyorsan újra elérhetővé tenni ezt a fontos információforrást.

TARSTUD részgyűjtemény

Elindult a „Bölcsészet- és társadalomtudományok, szakterületek” nevű részgyűjtemény első aratása, amelybe eddig 4759 webhelyet válogattunk be. Sok tudományos oldalt már eddig is archiváltunk az EGYETEM és a KUTINT gyűjteményekben, így a TARSTUD elsősorban magán és céges honlapokat és blogokat tartalmaz, beleértve olyan üzleti szolgáltatásokat is, mint például az ügyvédi irodák, a pénzintézetek, a marketingcégek, vagy a fordítóirodák, mert sok esetben ezeken is található szakmai tartalom. A seedlista itt böngészhető.

Lezajlott az idei „404-es” rendezvény

2022. december 8-án tartottuk meg az OSZK-ban a hatodik „404 Not Found – Ki őrzi meg az internetet?” című konferenciát és workshopot, melyen összesen 130-an vettek részt (ebből kb. 80-an online). A prezentációk és a fotók rövidesen felkerülnek a rendezvény weboldalára, a videófelvételek pedig a Videotoriumba.

2022. évi „404 Not Found” konferencia és workshop

Az Országos Széchényi Könyvtár Digitális Bölcsészeti Központja 2022. december 8-án tartja meg az internetes tartalmak archiválásával foglalkozó éves rendezvényét. A hatodik „404 Not Found – Ki őrzi meg az internetet?” című konferencia és workshop újra jelenléti formában valósul meg, de az érdeklődők online is bekapcsolódhatnak az élő közvetítésbe. A tervezett program és a regisztrációs űrlap linkje az OSZK honlapján megjelent hírben található: https://www.oszk.hu/rendezvenyek/404-not-found-ki-orzi-meg-az-internetet-2022

Webarchiválás workshop a DH_Budapest_22 & DARIAH Napokon

Ma kezdődik az ELTE-n a „DH_Budapest_2022 & DARIAH DAYS” elnevezésű konferencia, melynek délutáni programjában külön workshop és kerekasztal lesz a web archiválásáról. A rendezvényen volt kollégánk, Németh Márton is előadást tart, aki november 15-től az Open Society Archives munkatársaként foglalkozik a digitalizált és a digitálisan született tartalmak megőrzésével. A prezentációja innen tölthető le.