A 2022. évi tömeges aratások adatai

Elkészült a tavalyi aratások összesített adatait tartalmazó táblázat és grafikon, melybe a webtér, a tematikus részgyűjtemények, valamint a műfaji alapon válogatott e-periodikák és podcastok weboldalai számítanak bele. (Nincsenek tehát benne a podcast csatornákról külön letöltött hangfájlok, a főbb híroldalak napi mentései, az események és földrajzi helyek alapján zajló aratások, valamint a nyilvános szerveren levő archív webhelyek.) 2022-ben szerettük volna legalább megduplázni az év folyamán begyűjtött tartalmat, ezért a tömeges aratásokat nagyobb mélységben és hosszabb ideig futtattuk, továbbá jelentősen bővítettük az emberi munkával válogatott és az automatikusan gyűjtött URL listákat. Bár utóbbi nagyon „szemetes” lett, ami meglátszik a sikertelenül bejárt seed címek magas számán, a kitűzött célt így is meghaladtuk: a 2021. évi 171,1 millió helyett tavaly 448,5 millió új vagy megváltozott címet mentett el a robot, 39,9 terabájt összméretben a korábbi 16,2 terabájthoz képest. A 2022-es statisztika itt nézhető meg, a 2021-es pedig itt található.

Elkészült a decemberi WEBTER statisztika

A 2022. december 2. és 20. között három részletben lezajlott webtér szintű aratás összesített adatai felkerültek a honlapra. Mivel a fél évvel korábbihoz képest nem változtattunk a kiindulásként megadott címlistán és az aratási paramétereken, ezért a két archiválási ciklus eredménye jól összehasonlítható. A legfontosabb különbség az, hogy bár most valamivel kevesebb fájlt töltött le a robot, mint nyáron, de ebből darabszámra több volt az új vagy megváltozott tartalom, és összméretben is többet, a korábbi 6,1 helyett közel 6,7 terabájtot tárolt el a szerver.

A koronavirus.gov.hu honlap archivált verziója

2023. január 1-től megszűnt a koronavirus.gov.hu címen 2020 márciusa óta működő kormányzati tájékoztató oldal. A hivatalos járványügyi adatokat és híreket közlő honlapot rendszeresen archiváltuk a KORONAVIRUS2020 nevű, eseményalapú gyűjteményünk részeként, de a megszűnés előtti napokban készítettünk róla néhány teljes mentést a zárt és a nyilvános webarchívumba is, így utóbbit bárki meg tudja nézni a https://webarchivum.oszk.hu/demo-kezdolap/#egeszseg oldalról elindulva. Mivel a Kormány 626/2020. (XII. 22.) számú rendeletének 6. § (3) pontja szerint a kormányzati és önkormányzati tartalomszolgáltatások esetében nem kell külön szerződést kötnie az OSZK-nak az archivált verzió nyilvános szolgáltatására, ezért tudtuk ilyen gyorsan újra elérhetővé tenni ezt a fontos információforrást.

TARSTUD részgyűjtemény

Elindult a „Bölcsészet- és társadalomtudományok, szakterületek” nevű részgyűjtemény első aratása, amelybe eddig 4759 webhelyet válogattunk be. Sok tudományos oldalt már eddig is archiváltunk az EGYETEM és a KUTINT gyűjteményekben, így a TARSTUD elsősorban magán és céges honlapokat és blogokat tartalmaz, beleértve olyan üzleti szolgáltatásokat is, mint például az ügyvédi irodák, a pénzintézetek, a marketingcégek, vagy a fordítóirodák, mert sok esetben ezeken is található szakmai tartalom. A seedlista itt böngészhető.

Lezajlott az idei „404-es” rendezvény

2022. december 8-án tartottuk meg az OSZK-ban a hatodik „404 Not Found – Ki őrzi meg az internetet?” című konferenciát és workshopot, melyen összesen 130-an vettek részt (ebből kb. 80-an online). A prezentációk és a fotók rövidesen felkerülnek a rendezvény weboldalára, a videófelvételek pedig a Videotoriumba.

2022. évi „404 Not Found” konferencia és workshop

Az Országos Széchényi Könyvtár Digitális Bölcsészeti Központja 2022. december 8-án tartja meg az internetes tartalmak archiválásával foglalkozó éves rendezvényét. A hatodik „404 Not Found – Ki őrzi meg az internetet?” című konferencia és workshop újra jelenléti formában valósul meg, de az érdeklődők online is bekapcsolódhatnak az élő közvetítésbe. A tervezett program és a regisztrációs űrlap linkje az OSZK honlapján megjelent hírben található: https://www.oszk.hu/rendezvenyek/404-not-found-ki-orzi-meg-az-internetet-2022

Webarchiválás workshop a DH_Budapest_22 & DARIAH Napokon

Ma kezdődik az ELTE-n a „DH_Budapest_2022 & DARIAH DAYS” elnevezésű konferencia, melynek délutáni programjában külön workshop és kerekasztal lesz a web archiválásáról. A rendezvényen volt kollégánk, Németh Márton is előadást tart, aki november 15-től az Open Society Archives munkatársaként foglalkozik a digitalizált és a digitálisan született tartalmak megőrzésével. A prezentációja innen tölthető le.