2024. november 27-én kerül megrendezésre az idei „404 Not Found – Ki őrzi meg az internetet?” konferencia és workshop. A rendezvény részletes programja az OSZK honlapján olvasható, regisztrálni pedig itt lehet.
Az internetes tartalmak archiválásáról könyvtárostanároknak
November 11-én a Könyvtárostanárok Egyesületének (KTE) Őszi Szakmai Napján Visky Ákos László, az OSZK webarchívumának kurátora és Dömsödy Andrea, az ELTE Pedagógiai és Pszichológiai Kar könyvtárosa, a KTE alelnöke műhelybeszélgetést tartott a résztvevőkkel a webarchiválás fontosságáról és jelenlegi helyzetéről, valamint a lehetséges kapcsolódási pontokról ezen a területen a nemzeti könyvtár és az iskolai könyvtárak között. A beszélgetést felvezető prezentáció letölthető a honlapunkról.
Előadás az LDS Country Workshopon
2024. október 1-jén Budapesten tartották meg a Common European Data Spaces program aktuális workshopját, melyen Kalcsó Gyula „A magyar nemzeti könyvtár webarchiválási tevékenysége” címmel tartott előadást. A rendezvényről szóló hír az OSZK Facebook oldalán olvasható.
Új részgyűjtemény: SAKKOL2024
A 45. nyílt és 30. női sakkolimpia Budapesten kerül megrendezésre 2024. szeptember 10. és 23. között. Az eseménnyel kapcsolatos hírekből, honlapokból, egyedi weboldalakból és egyéb online dokumentumokból egy új részgyűjteményt állítottunk össze, melyek archiválása a mai nappal elkezdődött. A kiinduló címek listája itt nézhető meg.
Keresés a Nyári Olimpia 2024 részgyűjteményben
Az Országos Széchényi Könyvtár Digitális Bölcsészeti Központjának Digitális Filológiai és Webarchiválási Osztálya webarchiválási tevékenységének részeként jelentősebb eseményekről különgyűjteményeket készít, amelyekbe hírportálok anyagai, az eseményhez kapcsolódó webhelyek és közösségimédia-oldalak kerülnek bele. Az eddigi válogatások közül az orosz–ukrán konfliktus és az atlétikai világbajnokság gyűjteményeihez készült publikus keresőfelület.
A 2024-es párizsi olimpia és paralimpia esetében is elvégeztük az ún. eseményalapú gyűjtést, amelynek keretében több mint 160 forrásból mentünk tartalmakat. Ezek többsége hírportál, de a címlista tartalmazza a rendezvényhez szorosan kapcsolódó webhelyeket vagy azok releváns részeit, valamint a közösségimédia-oldalakat is. Az automatikus aratás ún. seed URL-ekről elindulva történik és mivel egész weboldalakat archiválunk, nem küszöbölhető ki, hogy a hírportálokról mentett anyag esetében bizonyos, az eseményhez nem kapcsolódó tartalmak is letöltésre kerüljenek, például további ajánlott cikkek. Az archiválás 2024. július 16-án indult és az olimpia ideje alatt napi rendszerességgel történik, azt követően pedig még egy ideig hetente egyszer lementjük az új híreket. (Ezen a videón az eseményalapú különgyűjtemények weboldala és a NYAROL2024 kódjelet kapott olimpiai különgyűjtemény seed-listája látható.)
A dán nemzeti könyvtár munkatársai évek óta fejlesztik a SolrWayback nevű keresőmotort és megjelenítőt, amely az Apache Solr-on alapul, és lehetővé teszi az archivált webes tartalomban (a webhelyek szövegében és más elemeiben, pl. képekben) való részletes keresést, és a találatok megjelenítését. (A nyilvános archívumunk esetében kipróbálható teljes funkcionalitásában.) A nyári olimpiáról szóló hírekhez készült kereső az http://olimpia2024public.webharvest.oszk.hu/solrwayback címen érhető el. A keresőmező melletti kérdőjelre kattintva részletes, magyar nyelvű leírás olvasható. A mentések jogi akadályok miatt csak az Országos Széchényi Könyvtár olvasótermében tekinthetők meg, viszont a találati listák a nyilvános keresőben tovább szűrhetők, számos metaadatot tartalmaznak, valamint adatvizualizációk és adatkészletek is előállíthatóak belőlük. (Egy keresési példa itt nézhető meg, ezen a harmadik videón pedig a magyar olimpiai részvételről szóló Wikipédia szócikk eredeti és archivált verziója látható.)
Új részgyűjtemény: NYAROL2024
A mai nappal elkezdtük aratni a 2024-es párizsi nyári olimpiával és paralimpiával kapcsolatos híreket, egyelőre heti gyakorisággal, de július 26-a után a rendezvény ideje alatt majd naponta. A kiindulásként használt címek listája itt látható.
Az MLSZ honlapjának változásai
A Labdarúgó EB alkalmából kigyűjtöttük az Internet Archive-ból az mlsz.hu oldal mentéseit és minden évről készítettünk egy-két képernyőfotót. A képekből összeállított PowerPoint innen tölthető le, a videóváltozat pedig a YouTube-on nézhető meg.
Új eseményalapú részgyűjtemény: FOCIEB2024
A mai napon elkezdtük gyűjteni a 2024-es Labdarúgó Európa Bajnoksággal kapcsolatos híreket, melyeket heti rendszerességgel fogunk aratni. A seed-lista itt nézhető meg.
Karikó gyűjtemény bővítése
Az elmúlt napokban jelentősen bővítettük a Karikó Katalinnal kapcsolatos cikkekből és egyéb weboldalakból álló különgyűjteményünket, melynek címlistáját közösen gondozzuk a Szegedi Egyetem Klebelsberg Könyvtárának munkatársaival. Most nagyrészt a Nobel-díj bejelentése, 2023 októbere óta megjelent hazai és külföldi híreket és videókat, illetve közösségi média posztokat gyűjtöttük össze, majd megpróbáltuk lementeni őket a Browsertrix, illetve néhány esetben az ArchiveWeb.page programokkal. A tavalyi válogatással egyesített és duplumszűrésen átesett, több mint 7800 tételes címlista itt található, a lementett weboldalak teljes szövegében pedig itt lehet keresni. Jogi okokból csak a metaadatok jelennek meg a találati listában, maguk az archivált fájlok az OSZK olvasótermében erre kijelölt gépeken nézhetők meg.
Új részgyűjtemény: SZOLGKER
Egy újabb tematikus válogatást állítottunk össze, ezúttal a szolgáltatás, a kereskedelem, a szállítás és a közlekedés tematikájába sorolható webhelyekből. A SZOLGKER kódnevet kapott részgyűjtemény első aratására most került sor. A 8766 tételes címlistából kiindulva közel 4,9 millió URL-t töltött le a robot 19 óra alatt, fél terabájt összméretben. A webhelyek listája itt böngészhető, az aratás statisztikája pedig itt nézhető meg.