Elindult az idei első új esemény-alapú aratás, mely Ferenc pápa április végi magyarországi látogatásáról szóló hírekre és egyéb kapcsolódó weboldalakra terjed ki. A seed-listát még tovább bővítjük a következő napokban.
Webarchiválási konferencia a Vörösmarty Mihály Könyvtárban
„Távcső a történelemre” címmel rendezett konferenciát április 24-én a székesfehérvári Vörösmarty Mihály Könyvtár, mely egyben a 2022-es Aranybulla-emlékév alkalmából készült webarchívum nyilvános bemutatója is volt. A rendezvényen az OSZK webarchívumának munkatársai három előadást is tartottak, ezek prezentációi letölthetők a honlapról.
Aranybulla Webarchívum bemutató a székesfehérvári megyei könyvtárban
2023. április 24-én „Távcső a történelemre” címmel konferenciát rendez a székesfehérvári megyei könyvtár, melyen bemutatják az Aranybulla-emlékév alkalmából készített webarchívumot. A rendezvényen mi is részt veszünk három előadással. A részletes program itt olvasható.
Blogbejegyzés az OSZK webarchívumáról
A Society of American Archivists webarchiválási szekciójának blogjában megjelent Kalcsó Gyula írása, melyben az OSZK-ban folyó webarchiválást mutatja be. A poszt itt érhető el.
Az EGESZSEG részgyűjtemény első aratása
Március 10. és 11. között lefutott az újonnan létrehozott „Egészségügy, szociális szféra” című részgyűjtemény első mentése, melyben jelenleg 7593 webhely címe található. Az egészségügyi szervezetek, kórházak, rendelőintézetek, fogászatok, optikák, orvosok stb. honlapjai és blogjai mellett az állatorvostudománnyal, a természetgyógyászattal, a gyógyszerészettel, továbbá a fogyatékkal élőkkel és szociális ellátásra szorulókkal kapcsolatos oldalakat is összegyűjtöttük. A címlista itt listázható ki.
Előadás a BOBCATSSS 2023 konferencián
Január 26-án Németh Márton és Kalcsó Gyula „Digital Humanities Research in Context of Web Archiving in Library Environment” címmel online előadást tartott az Oslo Metropolitan University által szervezett idei BOBCATSSS konferencián. A prezentáció innen tölthető le.
A 2022. évi tömeges aratások adatai
Elkészült a tavalyi aratások összesített adatait tartalmazó táblázat és grafikon, melybe a webtér, a tematikus részgyűjtemények, valamint a műfaji alapon válogatott e-periodikák és podcastok weboldalai számítanak bele. (Nincsenek tehát benne a podcast csatornákról külön letöltött hangfájlok, a főbb híroldalak napi mentései, az események és földrajzi helyek alapján zajló aratások, valamint a nyilvános szerveren levő archív webhelyek.) 2022-ben szerettük volna legalább megduplázni az év folyamán begyűjtött tartalmat, ezért a tömeges aratásokat nagyobb mélységben és hosszabb ideig futtattuk, továbbá jelentősen bővítettük az emberi munkával válogatott és az automatikusan gyűjtött URL listákat. Bár utóbbi nagyon „szemetes” lett, ami meglátszik a sikertelenül bejárt seed címek magas számán, a kitűzött célt így is meghaladtuk: a 2021. évi 171,1 millió helyett tavaly 448,5 millió új vagy megváltozott címet mentett el a robot, 39,9 terabájt összméretben a korábbi 16,2 terabájthoz képest. A 2022-es statisztika itt nézhető meg, a 2021-es pedig itt található.
Elkészült a decemberi WEBTER statisztika
A 2022. december 2. és 20. között három részletben lezajlott webtér szintű aratás összesített adatai felkerültek a honlapra. Mivel a fél évvel korábbihoz képest nem változtattunk a kiindulásként megadott címlistán és az aratási paramétereken, ezért a két archiválási ciklus eredménye jól összehasonlítható. A legfontosabb különbség az, hogy bár most valamivel kevesebb fájlt töltött le a robot, mint nyáron, de ebből darabszámra több volt az új vagy megváltozott tartalom, és összméretben is többet, a korábbi 6,1 helyett közel 6,7 terabájtot tárolt el a szerver.
A koronavirus.gov.hu honlap archivált verziója
2023. január 1-től megszűnt a koronavirus.gov.hu címen 2020 márciusa óta működő kormányzati tájékoztató oldal. A hivatalos járványügyi adatokat és híreket közlő honlapot rendszeresen archiváltuk a KORONAVIRUS2020 nevű, eseményalapú gyűjteményünk részeként, de a megszűnés előtti napokban készítettünk róla néhány teljes mentést a zárt és a nyilvános webarchívumba is, így utóbbit bárki meg tudja nézni a https://webarchivum.oszk.hu/demo-kezdolap/#egeszseg oldalról elindulva. Mivel a Kormány 626/2020. (XII. 22.) számú rendeletének 6. § (3) pontja szerint a kormányzati és önkormányzati tartalomszolgáltatások esetében nem kell külön szerződést kötnie az OSZK-nak az archivált verzió nyilvános szolgáltatására, ezért tudtuk ilyen gyorsan újra elérhetővé tenni ezt a fontos információforrást.
TARSTUD részgyűjtemény
Elindult a „Bölcsészet- és társadalomtudományok, szakterületek” nevű részgyűjtemény első aratása, amelybe eddig 4759 webhelyet válogattunk be. Sok tudományos oldalt már eddig is archiváltunk az EGYETEM és a KUTINT gyűjteményekben, így a TARSTUD elsősorban magán és céges honlapokat és blogokat tartalmaz, beleértve olyan üzleti szolgáltatásokat is, mint például az ügyvédi irodák, a pénzintézetek, a marketingcégek, vagy a fordítóirodák, mert sok esetben ezeken is található szakmai tartalom. A seedlista itt böngészhető.