Ma kezdődik az ELTE-n a „DH_Budapest_2022 & DARIAH DAYS” elnevezésű konferencia, melynek délutáni programjában külön workshop és kerekasztal lesz a web archiválásáról. A rendezvényen volt kollégánk, Németh Márton is előadást tart, aki november 15-től az Open Society Archives munkatársaként foglalkozik a digitalizált és a digitálisan született tartalmak megőrzésével. A prezentációja innen tölthető le.
Előadás a webarchívumok használatáról a történeti kutatásokban
Október 25-én a Bölcsészettudományi Kutatóközpont Irodalomtudományi Intézetnek „Digitális módszerek az irodalomtudomány támogatására” című mesterkurzusán Kokas Károly, az SZTE Klebelsberg Könyvtár főigazgató-helyettese tartott előadást „A webarchiválás és annak történeti lehetőségei” címmel. Az előadás prezije itt érhető el.
Information Interactions 2022 előadás
2022. október 20-21-én kerül megtartásra Pozsonyban az idei Information Interactions konferencia, melyen Németh Márton „The first 5 years of the Hungarian Web archiving project – a summary of a PhD thesis” címmel mutatja be az OSZK webarchiváló projektjét és a témában írt doktori dolgozatát. A prezentáció itt érhető el.
WARCnet projekt zárórendezvény
A dániai Aarhus város egyetemén október 17-18. között tartják a webarchívumok kutatási célú hasznosításával foglalkozó WARCnet projektet lezáró találkozót, melyen az OSZK-t Németh Márton kollégánk képviseli. A rendezvény programja itt olvasható.
Prágai konferenciaelőadás
Október 12. és 14. között Prágában kerül megrendezésre a Mutual Learning Workshop for Improving Cultural Heritage Bibliographical Data elnevezésű konferencia, melynek második napján Németh Márton tart előadást „Bibliographical Metadata and Web Archives” címmel. A prezentáció innen letölthető.
Podkaszt csatornák archiválása
Lezárult a magyar podkasztok hanganyagának hosszú távú megőrzésére tett első kísérletünk, melyet májusban kezdtünk el. Az azóta felderített 1287 csatorna közül különféle segédprogramokkal 1243-ról sikerült letölteni adásokat: több mint 75 ezer hangfájlt, 4,2 terabájt összméretben. A legrégibbek 2006-ban kerültek fel az internetre és szerencsére még nem tűntek el teljesen. A gyűjtemény bővítését és aktualizálását jövőre is folytatni szeretnénk, de már kisebb volumenben. A hanganyagok archiválása mellett természetesen a podkasztok és a podkaszt gyártók weboldalait is mentjük a Heritrix aratórobottal, negyedéves gyakorisággal. Ezek listája itt nézhető meg.
Bemutató határon túli magyar könyvtárosoknak
A „Könyvtár, ami összeköt” program keretében az OSZK-ba látogató kárpát-medencei könyvtárosok számára egy rövid bemutatót tartottunk a webarchiválásról, melynek prezentációja innen tölthető le.
Előadás a Kutatók Éjszakáján
A Kutatók Éjszakáján, szeptember 30-án 17.40–18.10 óra között Németh Márton kollégánk „A webarchívum mint kutatási forrás” címmel tart előadást az OSZK-ban. A prezentáció innen tölthető le.
Őszi webarchiválás tanfolyam
A Könyvtári Intézet 2022. szeptember 27-30. között ismét megrendezi „Az internet archiválása mint közgyűjteményi feladat” elnevezésű tanfolyamát. További információk itt találhatók.
Webtér aratás 2022/1
2022. június 24. és július 20. között három menetben lefutott az idei első webtér szintű aratás, és mostanra elkészültek az indexfájlok és az oldalképek is. Összességében 1,37 millió seed címről elindulva mintegy 180 millió URL talált a Heritrix robot és több mint 174 milliót sikeresen le is töltött, melyből 90 millió volt a korábban nem archivált vagy időközben megváltozott fájl. Méretileg a letöltött tartalom 8,89 terabájt, a ténylegesen eltárolt anyag pedig 6,13 terabájt lett. Az előző, 2021 december végén indított webtér aratáshoz képest darabszámban 3-szor, méretben pedig 2,5-szer több tartalmat mentettünk le, ami a megnövelt aratási mélységnek és futási időnek, valamint a seed lista megháromszorozásának köszönhető. A részletes statisztika – a korábbi aratások adataival együtt – itt nézhető meg.
A seed URL címekhez megpróbáltuk a kezdőoldal title adatát is letölteni, ami szintén csak több menetben, különböző szoftvereket használva sikerült. Végül 90 ezer „névtelen” webhely maradt, a többiről van legalább valamilyen – sajnos gyakran semmitmondó – névadatunk. A webtér címlistában itt lehet keresni.