Március 10. és 11. között lefutott az újonnan létrehozott „Egészségügy, szociális szféra” című részgyűjtemény első mentése, melyben jelenleg 7593 webhely címe található. Az egészségügyi szervezetek, kórházak, rendelőintézetek, fogászatok, optikák, orvosok stb. honlapjai és blogjai mellett az állatorvostudománnyal, a természetgyógyászattal, a gyógyszerészettel, továbbá a fogyatékkal élőkkel és szociális ellátásra szorulókkal kapcsolatos oldalakat is összegyűjtöttük. A címlista itt listázható ki.
Előadás a BOBCATSSS 2023 konferencián
Január 26-án Németh Márton és Kalcsó Gyula „Digital Humanities Research in Context of Web Archiving in Library Environment” címmel online előadást tartott az Oslo Metropolitan University által szervezett idei BOBCATSSS konferencián. A prezentáció innen tölthető le.
A 2022. évi tömeges aratások adatai
Elkészült a tavalyi aratások összesített adatait tartalmazó táblázat és grafikon, melybe a webtér, a tematikus részgyűjtemények, valamint a műfaji alapon válogatott e-periodikák és podcastok weboldalai számítanak bele. (Nincsenek tehát benne a podcast csatornákról külön letöltött hangfájlok, a főbb híroldalak napi mentései, az események és földrajzi helyek alapján zajló aratások, valamint a nyilvános szerveren levő archív webhelyek.) 2022-ben szerettük volna legalább megduplázni az év folyamán begyűjtött tartalmat, ezért a tömeges aratásokat nagyobb mélységben és hosszabb ideig futtattuk, továbbá jelentősen bővítettük az emberi munkával válogatott és az automatikusan gyűjtött URL listákat. Bár utóbbi nagyon „szemetes” lett, ami meglátszik a sikertelenül bejárt seed címek magas számán, a kitűzött célt így is meghaladtuk: a 2021. évi 171,1 millió helyett tavaly 448,5 millió új vagy megváltozott címet mentett el a robot, 39,9 terabájt összméretben a korábbi 16,2 terabájthoz képest. A 2022-es statisztika itt nézhető meg, a 2021-es pedig itt található.
Elkészült a decemberi WEBTER statisztika
A 2022. december 2. és 20. között három részletben lezajlott webtér szintű aratás összesített adatai felkerültek a honlapra. Mivel a fél évvel korábbihoz képest nem változtattunk a kiindulásként megadott címlistán és az aratási paramétereken, ezért a két archiválási ciklus eredménye jól összehasonlítható. A legfontosabb különbség az, hogy bár most valamivel kevesebb fájlt töltött le a robot, mint nyáron, de ebből darabszámra több volt az új vagy megváltozott tartalom, és összméretben is többet, a korábbi 6,1 helyett közel 6,7 terabájtot tárolt el a szerver.
A koronavirus.gov.hu honlap archivált verziója
2023. január 1-től megszűnt a koronavirus.gov.hu címen 2020 márciusa óta működő kormányzati tájékoztató oldal. A hivatalos járványügyi adatokat és híreket közlő honlapot rendszeresen archiváltuk a KORONAVIRUS2020 nevű, eseményalapú gyűjteményünk részeként, de a megszűnés előtti napokban készítettünk róla néhány teljes mentést a zárt és a nyilvános webarchívumba is, így utóbbit bárki meg tudja nézni a https://webarchivum.oszk.hu/demo-kezdolap/#egeszseg oldalról elindulva. Mivel a Kormány 626/2020. (XII. 22.) számú rendeletének 6. § (3) pontja szerint a kormányzati és önkormányzati tartalomszolgáltatások esetében nem kell külön szerződést kötnie az OSZK-nak az archivált verzió nyilvános szolgáltatására, ezért tudtuk ilyen gyorsan újra elérhetővé tenni ezt a fontos információforrást.
TARSTUD részgyűjtemény
Elindult a „Bölcsészet- és társadalomtudományok, szakterületek” nevű részgyűjtemény első aratása, amelybe eddig 4759 webhelyet válogattunk be. Sok tudományos oldalt már eddig is archiváltunk az EGYETEM és a KUTINT gyűjteményekben, így a TARSTUD elsősorban magán és céges honlapokat és blogokat tartalmaz, beleértve olyan üzleti szolgáltatásokat is, mint például az ügyvédi irodák, a pénzintézetek, a marketingcégek, vagy a fordítóirodák, mert sok esetben ezeken is található szakmai tartalom. A seedlista itt böngészhető.
Lezajlott az idei „404-es” rendezvény
2022. december 8-án tartottuk meg az OSZK-ban a hatodik „404 Not Found – Ki őrzi meg az internetet?” című konferenciát és workshopot, melyen összesen 130-an vettek részt (ebből kb. 80-an online). A prezentációk és a fotók rövidesen felkerülnek a rendezvény weboldalára, a videófelvételek pedig a Videotoriumba.
2022. évi „404 Not Found” konferencia és workshop
Az Országos Széchényi Könyvtár Digitális Bölcsészeti Központja 2022. december 8-án tartja meg az internetes tartalmak archiválásával foglalkozó éves rendezvényét. A hatodik „404 Not Found – Ki őrzi meg az internetet?” című konferencia és workshop újra jelenléti formában valósul meg, de az érdeklődők online is bekapcsolódhatnak az élő közvetítésbe. A tervezett program és a regisztrációs űrlap linkje az OSZK honlapján megjelent hírben található: https://www.oszk.hu/rendezvenyek/404-not-found-ki-orzi-meg-az-internetet-2022
Webarchiválás workshop a DH_Budapest_22 & DARIAH Napokon
Ma kezdődik az ELTE-n a „DH_Budapest_2022 & DARIAH DAYS” elnevezésű konferencia, melynek délutáni programjában külön workshop és kerekasztal lesz a web archiválásáról. A rendezvényen volt kollégánk, Németh Márton is előadást tart, aki november 15-től az Open Society Archives munkatársaként foglalkozik a digitalizált és a digitálisan született tartalmak megőrzésével. A prezentációja innen tölthető le.
Előadás a webarchívumok használatáról a történeti kutatásokban
Október 25-én a Bölcsészettudományi Kutatóközpont Irodalomtudományi Intézetnek „Digitális módszerek az irodalomtudomány támogatására” című mesterkurzusán Kokas Károly, az SZTE Klebelsberg Könyvtár főigazgató-helyettese tartott előadást „A webarchiválás és annak történeti lehetőségei” címmel. Az előadás prezije itt érhető el.