Az EGESZSEG részgyűjtemény első aratása

Március 10. és 11. között lefutott az újonnan létrehozott „Egészségügy, szociális szféra” című részgyűjtemény első mentése, melyben jelenleg 7593 webhely címe található. Az egészségügyi szervezetek, kórházak, rendelőintézetek, fogászatok, optikák, orvosok stb. honlapjai és blogjai mellett az állatorvostudománnyal, a természetgyógyászattal, a gyógyszerészettel, továbbá a fogyatékkal élőkkel és szociális ellátásra szorulókkal kapcsolatos oldalakat is összegyűjtöttük. A címlista itt listázható ki.

A 2022. évi tömeges aratások adatai

Elkészült a tavalyi aratások összesített adatait tartalmazó táblázat és grafikon, melybe a webtér, a tematikus részgyűjtemények, valamint a műfaji alapon válogatott e-periodikák és podcastok weboldalai számítanak bele. (Nincsenek tehát benne a podcast csatornákról külön letöltött hangfájlok, a főbb híroldalak napi mentései, az események és földrajzi helyek alapján zajló aratások, valamint a nyilvános szerveren levő archív webhelyek.) 2022-ben szerettük volna legalább megduplázni az év folyamán begyűjtött tartalmat, ezért a tömeges aratásokat nagyobb mélységben és hosszabb ideig futtattuk, továbbá jelentősen bővítettük az emberi munkával válogatott és az automatikusan gyűjtött URL listákat. Bár utóbbi nagyon „szemetes” lett, ami meglátszik a sikertelenül bejárt seed címek magas számán, a kitűzött célt így is meghaladtuk: a 2021. évi 171,1 millió helyett tavaly 448,5 millió új vagy megváltozott címet mentett el a robot, 39,9 terabájt összméretben a korábbi 16,2 terabájthoz képest. A 2022-es statisztika itt nézhető meg, a 2021-es pedig itt található.

Elkészült a decemberi WEBTER statisztika

A 2022. december 2. és 20. között három részletben lezajlott webtér szintű aratás összesített adatai felkerültek a honlapra. Mivel a fél évvel korábbihoz képest nem változtattunk a kiindulásként megadott címlistán és az aratási paramétereken, ezért a két archiválási ciklus eredménye jól összehasonlítható. A legfontosabb különbség az, hogy bár most valamivel kevesebb fájlt töltött le a robot, mint nyáron, de ebből darabszámra több volt az új vagy megváltozott tartalom, és összméretben is többet, a korábbi 6,1 helyett közel 6,7 terabájtot tárolt el a szerver.

A koronavirus.gov.hu honlap archivált verziója

2023. január 1-től megszűnt a koronavirus.gov.hu címen 2020 márciusa óta működő kormányzati tájékoztató oldal. A hivatalos járványügyi adatokat és híreket közlő honlapot rendszeresen archiváltuk a KORONAVIRUS2020 nevű, eseményalapú gyűjteményünk részeként, de a megszűnés előtti napokban készítettünk róla néhány teljes mentést a zárt és a nyilvános webarchívumba is, így utóbbit bárki meg tudja nézni a https://webarchivum.oszk.hu/demo-kezdolap/#egeszseg oldalról elindulva. Mivel a Kormány 626/2020. (XII. 22.) számú rendeletének 6. § (3) pontja szerint a kormányzati és önkormányzati tartalomszolgáltatások esetében nem kell külön szerződést kötnie az OSZK-nak az archivált verzió nyilvános szolgáltatására, ezért tudtuk ilyen gyorsan újra elérhetővé tenni ezt a fontos információforrást.

TARSTUD részgyűjtemény

Elindult a „Bölcsészet- és társadalomtudományok, szakterületek” nevű részgyűjtemény első aratása, amelybe eddig 4759 webhelyet válogattunk be. Sok tudományos oldalt már eddig is archiváltunk az EGYETEM és a KUTINT gyűjteményekben, így a TARSTUD elsősorban magán és céges honlapokat és blogokat tartalmaz, beleértve olyan üzleti szolgáltatásokat is, mint például az ügyvédi irodák, a pénzintézetek, a marketingcégek, vagy a fordítóirodák, mert sok esetben ezeken is található szakmai tartalom. A seedlista itt böngészhető.