WARCnet projekt zárórendezvény

A dániai Aarhus város egyetemén október 17-18. között tartják a webarchívumok kutatási célú hasznosításával foglalkozó WARCnet projektet lezáró találkozót, melyen az OSZK-t Németh Márton kollégánk képviseli. A rendezvény programja itt olvasható.

Podkaszt csatornák archiválása

Lezárult a magyar podkasztok hanganyagának hosszú távú megőrzésére tett első kísérletünk, melyet májusban kezdtünk el. Az azóta felderített 1287 csatorna közül különféle segédprogramokkal 1243-ról sikerült letölteni adásokat: több mint 75 ezer hangfájlt, 4,2 terabájt összméretben. A legrégibbek 2006-ban kerültek fel az internetre és szerencsére még nem tűntek el teljesen. A gyűjtemény bővítését és aktualizálását jövőre is folytatni szeretnénk, de már kisebb volumenben. A hanganyagok archiválása mellett természetesen a podkasztok és a podkaszt gyártók weboldalait is mentjük a Heritrix aratórobottal, negyedéves gyakorisággal. Ezek listája itt nézhető meg.

Webtér aratás 2022/1

2022. június 24. és július 20. között  három menetben lefutott az idei első webtér szintű aratás, és mostanra elkészültek az indexfájlok és az oldalképek is. Összességében 1,37 millió seed címről elindulva mintegy 180 millió URL talált a Heritrix robot és több mint 174 milliót sikeresen le is töltött, melyből 90 millió volt a korábban nem archivált vagy időközben megváltozott fájl. Méretileg a letöltött tartalom 8,89 terabájt, a ténylegesen eltárolt anyag pedig 6,13 terabájt lett. Az előző, 2021 december végén indított webtér aratáshoz képest darabszámban 3-szor, méretben pedig 2,5-szer több tartalmat mentettünk le, ami a megnövelt aratási mélységnek és futási időnek, valamint a seed lista megháromszorozásának köszönhető.  A részletes statisztika – a korábbi aratások adataival együtt – itt nézhető meg.

A seed URL címekhez megpróbáltuk a kezdőoldal title adatát is letölteni, ami szintén csak több menetben, különböző szoftvereket használva sikerült. Végül 90 ezer „névtelen” webhely maradt, a többiről van legalább valamilyen – sajnos gyakran semmitmondó – névadatunk.  A webtér címlistában itt lehet keresni.

Keresés az ukrajnai hírek szövegében

Az https://ukrajnapublic.webharvest.oszk.hu/solrwayback/ oldalon a 2022-ben kezdődött ukrán–orosz konfliktussal, majd háborúval kapcsolatos hírek teljes szövegében lehet kereséseket indítani, valamint a „TOOLBOX” linkre kattintva különféle statisztikákat készíteni ezekről a lementett tartalmakról. Maguk az archivált cikkek jogi okokból nem nézhetők meg a nyilvános felületen, de ha az archiválás dátuma alatti „URL:” sorban levő webcímet lemásoljuk és megnyitjuk egy böngészőlapon, akkor az eredeti híroldal jelenik meg (amennyiben még elérhető az élő weben). A szövegkorpusz elemzése és vizualizációja pedig az OSZK Digitális Bölcsészeti Központja által gondozott https://dhupla.hu/page/kreativ/ oldalon érhető el.

WARCnet találkozó Londonban

A webarchívumok kutatási célú hasznosítására 2020-ban indult nemzetközi WARCnet projekt idei első találkozójára a University of London School of Advanced Study nevű posztgraduális intézményében került sor június 13-15. között. A megbeszéléseken az OSZK webarchívumát Németh Márton képviselte, aki a webarchiválás és a felsőoktatás kapcsolatával fog foglalkozni a projekten belül.