Emerald Literati Award

A webarchiválási tanfolyamunkról és tananyagunkról írt „A blended learning-based curriculum on Web archiving in the National Széchényi Library” című 2019-es cikkünk bekerült a Emerald kiadó által kiemelt publikációk közé.

SolrWayback új verzió

A világon elsőként nálunk próbálható ki nyilvánosan a dán királyi könyvtár által fejlesztett SolrWayback rendszer új verziója, mellyel az archivált weboldalak teljes szövegében lehet keresni, de jó néhány egyéb hasznos funkciót is tartalmaz. Megújult a találati lista, a képekben levő geokoordináták alapján való térképre vetítés és megjelent egy – még béta állapotú – TOOLBOX nevű menüpont is, ahol olyan funkciókat találunk, mint a szófelhő generálás, illetve az N-gram grafikon készítés.

Szerverköltözés

November folyamán a webarchívum szerverei a KIFÜ által üzemeltetett felhőbe költöznek, ezért néhány napos fennakadások lesznek mind a honlap, mind pedig a nyilvános gyűjtemény elérésében.

Periodikák nyilvántartásának frissítése

Az elmúlt hetekben frissítettük az időszaki kiadványok (folyóiratok, magazinok, hírportálok és -blogok, közlönyök, hírlevelek, reklámújságok stb.) weboldalainak nyilvántartását. Az OSZK Gyarapítási Osztályán korábban összegyűjtött önkormányzati lapok listájával összehasonlítva 59, az EPA adatbázisának ez évi bővülése alapján 36 új tételt vettünk fel, saját gyűjtésből pedig további 67 kiadvánnyal növekedett a webarchívum listája októberben.  A revízió során 108 tételt töröltünk az aratandók közül, mert ezek már nem érhetők el az élő weben. A törölt és a csak nyilvántartott oldalakkal együtt 5617 webcím van a rendszerünkben, ebből 4928-at mentünk le most hétvégén.

Interjú a koronavírus hírek archiválásáról

A dán Aarhus University „WARCnet Papers” című sorozatában megjelent Friedel Geeraert, a belga nemzeti könyvtár munkatársa által készített interjú Németh Mártonnal. A cikk fő témája a COVID-19 vírussal foglalkozó  magyar nyelvű webhelyek és weboldalak archiválása. Az angol nyelvű PDF fájl a https://cc.au.dk/en/warcnet/warcnet-papers/ oldalról tölthető le, ahol más webarchívumok beszámolói is megtalálhatók arról, hogy hogyan próbálják a világjárvánnyal kapcsolatos online híreket és egyéb internetes tartalmakat az utókor számára megőrizni.

Facebook oldalak mentése

Az elmúlt két hétben az egyik legnehezebben megőrizhető internetes tartalom, a Facebook archiválásával kísérleteztünk a Webrecorder Desktop és annak online változata, a Conifer segítségével. 147 publikus könyvtári Facebook oldalról mentettünk közel 30 ezer bejegyzést, többnyire képpel, illetve néhol videóval együtt. 35 esetben sikerült a teljes oldalon végigmenni (a legrégebbi letöltött poszt dátuma 2010-04-28 volt), a többinél pedig az utolsó egy-két év bejegyzéseiből mentettünk le átlagosan körülbelül kétszázat.

Gyorsmérleg a KDS együttműködésről

A „Könyv, Könyvtár, Könyvtáros” szaklap idei 7-8. számában megjelent Visky Ákos László összefoglalója az OSZK webarchívuma és több megyei könyvtár együttműködéséről a Közgyűjteményi Digitalizálási Stratégia keretében. A cikk kiegészítéseként Szécsényi Orsolya, az egri Bródy Sándor Megyei és Városi Könyvtár munkatársa számol be arról, hogy az ottani helyismereti könyvtárosok hogyan vettek részt ebben az újszerű feladatban. A teljes szöveg az EPA-ból tölthető le.

A webarchívum mérete

Az eddig összeválogatott és rendszeresen archivált webhelyek száma már csaknem pontosan 33 ezer, ezen felül pedig még 4890 időszaki kiadvány weboldalát mentjük negyedéves gyakorisággal jelenleg. A teljes gyűjtemény, melyben az esemény-alapú és a webtér-szintű aratások anyaga is benne van, több mint 11 ezer WARC fájlban raktározódik, melyek kb. 40 terabájtot foglalnak el.

Híroldalak napi mentése

Az elmúlt hetekben, egyelőre kísérleti jelleggel, elkezdtük néhány ismertebb magyar hírportál és online napilap, valamint egy hírgyűjtő oldal kezdőlapjának és az arról elérhető cikkeknek a napi szintű mentését. Ehhez a Brozzler nevű szoftvert használjuk, amely egy böngészőn keresztül menti a szervertől kapott fájlokat, így pontosabban lehet letölteni és utána rekonstruálni ezeket a komplex weblapokat, mint egy „buta” robottal való aratással. A naponta archivált híroldalak jelenleg a következők: 24.hu, 444.hu, 888.hu, blikk.hu, borsonline.hu, hirado.hu, hirkereso.hu, hvg.hu, index.hu, magyarnemzet.hu, mandiner.hu, napi.hu, nemzetisport.hu, origo.hu, portfolio.hu, ripost.hu és szeretlekmagyarorszag.hu.