A honlapunk „Szakembereknek” menüjében megjelent egy új alpont a közép-európai webarchívumokról: https://webarchivum.oszk.hu/szakembereknek/cewa/ Itt a 2021-ben tartott „404-es” rendezvényünkön bemutatkozott öt, környező országbeli nemzeti archívum adatlapja érhető el. Az egyes projektek ismertetése mellett megpróbáltuk azt is felderíteni, hogy mennyi magyar nyelvű vagy magyar vonatkozású tartalom lehet ezekben a gyűjteményekben.
Keresés a Karikó Katalin részgyűjteményben
Az Országos Széchényi Könyvtár és a Szegedi Tudományegyetem közötti együttműködés keretében az OSZK Digitális Bölcsészeti Központjának Digitális Filológiai és Webarchiválási Osztálya Karikó Katalin életével, világraszóló felfedezésével és Nobel-díjával kapcsolatos webtartalmakat archivál. A címlistát – melyben tudományos publikációk és előadások, hírek és cikkek, hangfelvételek és videók is vannak – közösen bővítjük a SZTE Klebelsberg Könyvtár munkatársaival hazai és külföldi forrásokból. Egy keresőt is működtetünk a https://kariko.webharvest.oszk.hu/solrwayback, mellyel a lementett weboldalak teljes szövegében lehet keresni és különféle statisztikai adatokat generálni. (A keresőmező melletti kérdőjelre kattintva részletes magyar nyelvű leírás olvasható.) Maguk a mentések jogi okokból csak az Országos Széchényi Könyvtár olvasótermében tekinthetők meg, de a metaadatok között megtalálható az eredeti URL cím, melyet kimásolva megnézhető az élő weboldal, amennyiben még elérhető. Az együttműködés részét képezi még a szegedi könyvtárosok által gondozott Karikó Katalin virtuális kiállítás rendszeres archiválása is. A projektről két előadás is elhangzott a 2022-es és a 2023-as konferenciánkon, melyek prezentációi letölthetők a honlapunkról.
Elérhetők a 404-es konferencia és workshop prezentációi
Az idei „404 Not Found” konferencia és workshop előadásainak prezentációi és a helyszínen készült fotók felkerültek a rendezvény weboldalára.
Látogatás a Luxemburgi Nemzeti Könyvtárban
Az OSZK blogjában megjelent a luxemburgi webarchívummal való együttműködésünk keretében szeptemberben lezajlott tanulmányútról készült beszámoló. A teljes blogbejegyzés itt olvasható.
A hetedik 404-es workshop
A 2023-as „404 Not Found – Ki őrzi meg az internetet?” konferencia és workshop november 29-én kerül megrendezésre. A részletes program az OSZK honlapján olvasható.
Előadás a pécsi Csorba Győző Könyvtárban
November 11-én Visky Ákos László webkurátor „Archivált webtartalom a könyvtári gyűjteményekben – a közgyűjtemények szerepe az internetes tartalmak megőrzésében” címmel tartott előadást a Pécs-Baranya évszázadai helyismereti konferencián a webarchiválásról és az OSZK archívumáról. A prezentáció innen tölthető le.
Keresés az Atlétikai VB 2023 részgyűjteményben
Az Országos Széchényi Könyvtár Digitális Bölcsészeti Központjának Digitális Filológiai és Webarchiválási Osztálya webarchiválási tevékenységének részeként jelentősebb eseményekről különgyűjteményeket készít, amelyekbe hírportálok anyaga, az eseményhez kapcsolódó webhelyek és közösségimédia-oldalak kerülnek bele. Az eddigi gyűjtések közül az orosz–ukrán konfliktushoz kapcsolódó részgyűjteményhez készült publikus keresőfelület.
A 2023-as budapesti atlétikai világbajnokság esetében is elvégeztük az ún. eseményalapú gyűjtést, amelynek keretében több mint 100 forrásból mentettünk tartalmakat. Ezek többsége hírportál, de tartalmazza a rendezvényhez szorosan kapcsolódó webhelyeket, valamint közösségimédia-oldalakat is. Mivel az automatikus mentés ún. kiinduló URL-ek (seed URL-ek) alapján történik, amelyek sokszor vegyes tartalmúak, ezért nem küszöbölhető ki, hogy a hírportálokról mentett anyag esetében bizonyos, az eseményhez szorosan nem kapcsolódó tartalmak is mentésre kerüljenek. Az archiválás 2023. augusztus 18-tól 31-ig napi rendszerességgel történik, 2023. szeptember 8-én egy kiegészítő mentéssel zárul.
A dán nemzeti könyvtár munkatársai évek óta fejlesztik a SolrWayback nevű keresőmotort és megjelenítőt, amely az Apache Solr-on alapul, és lehetővé teszi az archivált webes tartalomban (a webhelyek szövegében és más elemeiben, pl. képekben) való részletes keresést, és a találatok megjelenítését. (A nyilvános archívumunk esetében kipróbálható teljes funkcionalitásában.) Az atlétikai VB-hez készült kereső elérhető a https://atletikavb2023.webharvest.oszk.hu/solrwayback/ címen. A keresőmező melletti kérdőjelre kattintva részletes, magyar nyelvű leírás olvasható. A mentések jogi akadályok miatt csak az Országos Széchényi Könyvtár olvasótermében tekinthetők meg, viszont a találati listák a nyilvános keresőben tovább szűrhetők, számos metaadatot tartalmaznak, valamint adatvizualizációk és adatkészletek is előállíthatóak belőlük.
ELETMOD részgyűjtemény első aratása
A webarchívum anyagának nagyobb tárhelyre való költöztetése miatt a tömeges aratások május óta szüneteltek. Az átmásolás augusztus elején fejeződött be, így csak most tudtuk elindítani az „Életmód, szabadidő, hobbi” elnevezésű, újonnan kialakított részgyűjteményünk első mentését. A címlista itt böngészhető, az aratási statisztika pedig itt nézhető meg.
Európa Kulturális Fővárosa gyűjtemény
Egy újabb esemény-alapú részgyűjtemény archiválását kezdtük el a mai napon. 2023-ban Veszprém és a Bakony-Balaton Régió megkapta az Európa Kulturális Fővárosa címet, melyhez számos rendezvény és fejlesztési projekt is kapcsolódik. Az ezekről szóló weboldalakat igyekszünk havi rendszereséggel összegyűjteni a hivatalos honlapokról, 26 hírportálról, a közösségi médiából és néhány további magyar és külföldi online forrásból. A címlista itt tekinthető meg.
Címlisták ellenőrzése
A nyári uborkaszezonban van lehetőségünk a korábban összeválogatott webcímek ellenőrzésére, amiből következtetni lehet a webhelyek megszűnésének gyakoriságára. Július 15. és 18. között a természet- és műszaki tudományok, valamint szakterületek kb. másfél évvel ezelőtt létrehozott nyilvántartását néztük át. A 2057 honlapból és blogból 101 biztosan megszűnt, további 25 pedig szintén nem elérhető, de a Google robotja néhány hete még le tudta indexelni őket, így ezeket egyelőre nem töröltük ki az aratásra kerülő oldalak közül. Hasonló, öt-hat százalék körüli hibaarányt eredményezett a bölcsészet- és társadalomtudományok, illetve az ezekhez kapcsolódó szakterületek címlistájának átvizsgálása július harmadik hetében. Az 5912 webhelyből 203-at kellett megszűntnek nyilvánítani és 101 volt a talán csak ideiglenesen szünetelő oldal.