A Magyar Nemzeti Múzeum Közgyűjteményi Központ Országos Széchényi Könyvtár (a továbbiakban: MNMKK OSZK) Digitális Bölcsészeti Központja 2025. november 12-én tartotta meg az internetes tartalmak archiválásával, tágabban a digitális megőrzéssel foglalkozó éves rendezvényét, az immár kilencedik 404 Not Found – Ki őrzi meg az internetet? című konferenciát és workshopot. Az idei rendezvény kiemelt témája a webarchívum mint adat volt, a tervezett előadások majd mindegyike ehhez kapcsolódott. A Skót Nemzeti Könyvtárral közösen elnyert CENL-pályázat keretében Budapesten tartózkodó kollégák, továbbá a könyvtár kutató ösztöndíjasa az általuk végzett tevékenységről és a skót webarchívum metaadatainak hasznosulásáról beszéltek. A Nemzeti Audiovizuális Archívum, valamint az MTA Könyvtár és Információs Központ a webtartalom archiválásának speciális változatait mutatták be. Az ELTE Nyelvtudományi Kutatóközpont az archivált webes tartalom magyar nyelvi modell fejlesztésében való felhasználásáról tartott előadást. Végül az MNMKK OSZK munkatársai a webarchiválási csoport éves tevékenységéről és a webarchívumban levő adatok megoszlásáról, valamint a hírportálok napi szintű mentésének megújításáról tájékoztatták a résztvevőket. Az utóbbi témához kapcsolódott a délutáni workshop, amelynek keretében a Browsertrix crawler használatába vezették be az érdeklődőket.
A rendezvény hirdetménye az OSZK honlapján olvasható, a plakátja pedig innen tölthető le.
Az előadások listája, kivonatai és prezentációi:
- Gerencsér Judit általános főigazgató-helyettes (MNMKK OSZK): Köszöntő
- Dr. Latorcai Csaba parlamenti államtitkár, területfejlesztési miniszterhelyettes (KTM): Megnyitó
- Eilidh MacGlone – Josep Marshall (NLS): National Library of Scotland: Our web archive (1999–)
A Skót Nemzeti Könyvtár egy kötelespéldány könyvtár, amelynek székhelye Edinburgh-ban és Glasgow-ban található az Egyesült Királyságban. 2013-ban a Kötelespéldány Könyvtárak (Nem Nyomtatott Művek) Szabályzat felhatalmazott minket arra, hogy az engedélyeken alapuló gyűjteményünk mellett weboldalakat is kötelespéldányként archiváljunk. Ez lehetővé tette számunkra, hogy folytassuk munkánkat a skóciai online független nyomtatás és önkiadás hagyományának megőrzése érdekében. Az azóta eltelt években kidolgoztuk saját megközelítésünket, gyakran kutatókkal és más könyvtárakkal együttműködve. Ez az előadás gyűjteményeinkből vett példákon keresztül mutatja be, hogyan jutottunk el a munkafolyamatainkhoz és módszereinkhez ebben a jogi keretrendszerben. - Kocsis Andrea (UE): Hozzáférés engedélyezve: Kreatív utakon a webarchívumokhoz
Az előadás három eltérő webarchívum-felhasználói csoport bevonásának lehetőségeit vizsgálja: az általános olvasókat, az adathasználókat és a „digitálisan kíváncsiakat” (digitally curious). A University of Edinburgh, a Cambridge University Libraries és a National Library of Scotland együttműködésében végzett kutatások példáira építve az előadás ajánlásokat fogalmaz meg a széles körű hozzáférést szem előtt tartó webarchívum programokhoz.
Először az általános olvasók élményének gazdagítása érdekében játékosított (gamified) felületeket, valamint közösségi ismeretterjesztő eseményeket – például kiállítást – alkalmazunk, hogy növeljük a könyvtárhasználók tudatosságát és kíváncsiságát a rendelkezésre álló webarchívum-források iránt.
Másodszor az adathasználói közösség igényeire reagálva a metadata datasets és a Datasheets for Data dokumentáció gondos kurálására helyezzük a hangsúlyt, ösztönözve a webarchívum-gyűjteményeken végzett kvantitatív kutatásokat. E munka része olyan közösségi kutatói események szervezése is, mint az adatvizualizáció vagy pilot study-felhívások, amelyek eredményei később az általános olvasók számára elérhető forrásokba is beépülhetnek.
Végül a digitális kompetenciák hiányából fakadó akadályok leküzdése érdekében olyan forrásokat fejlesztettünk, amelyek kifejezetten a „digitálisan kíváncsi” közönségnek szólnak – azoknak, akik felismerik a webarchívumokban rejlő kvantitatív lehetőségeket, de nem rendelkeznek fejlett számítási ismeretekkel. Feltételezésünk szerint e csoport digitális készségeinek fejlesztése hozzájárulhat ahhoz, hogy érdeklődésük a webarchívumok felfedezése és használata felé nyíljon.
A bemutatott megközelítéseket két esettanulmányon keresztül szemléltetem: az Archive of Tomorrow és a Digital Ghost projektekkel. - Bajnok László (NAVA): A NAVA archiválási tevékenysége – Audiovizuális dokumentumok katalogizálása a NAVA-ban
Annak érdekében, hogy a jövő nemzedékei korhű képet kapjanak a jelen és a múlt eseményeiről, társadalmáról és kultúrájáról, a rádiós és televíziós műsorszámok gyűjtése, nyilvántartása, megőrzése és a nyilvánosság számára történő hozzáférhetővé tétele céljából az Országgyűlés megalkotta a NAVA-törvényt. A Nemzeti Audiovizuális Archívum 2006. január elsején kezdte meg üzemszerű működését. 20 éve gyűjti, digitálisan tárolja, katalogizálja a műsorszolgáltatók által sugárzott magyar gyártású vagy magyar vonatkozású műsorszámokat. A katalógusa nyilvános, a videók nagyobb része oktatási és kutatási célra dedikált hálózaton keresztül érhető el. - Holl András ((MTA KIK): Repozitóriumok – a digitális információk archiválásának eszköze
2019-es 404 Not Found – Ki őrzi meg az internetet? konferencián tartott előadásom (noWebarchive – Amikor nem a webarchiválás a megfelelő módszer a web archiválására) alapvetését követve, a 2025-ös Networkshopon elhangzott, az Informatikatörténeti Fórum webes adatbázisának archiválásával foglalkozó előadás nyomán számolok be komplex webes tartalmak repozitóriumi archiválásáról. Gyakorta a web dokumentumok hozzáférhetőségének és logikai rendszerbe szervezésének eszköze, ezen információk megőrzésének egyik eszköze a webarchiválás. Ugyanezen dokumentumokat és a kontextusukat megteremtő, ám további információkat is hordozó HTML oldalakat tervezetten repozitóriumba lehet helyezni, alternatívát kínálva a webarchiválásnak. Az előadás egyúttal megemlékezés Dömölki Bálintról, a NWS2025-ös előadás első szerzőjéről. - Sárossy Bence (ELTE NYTK): Milyen magyar nyelvet tanul meg a mesterséges intelligencia? – Az internet tartalma mint tanítóanyag
Az ELTE Nyelvtudományi Kutatóközpontjának Nyelvtechnológiai Kutatócsoportja több éve foglalkozik nyelvmodellek fejlesztésével. A PULI nyelvmodellcsalád tagjai között találunk egynyelvű modellt és háromnyelvű modellt, generatív alapmodellt és chatmodellt, GPT-alapú és Llama-alapú modellt; közös azonban ezekben a különös gonddal előállított magyar nyelvű tanítóanyag. Előadásomban bemutatom, honnan és hogyan gyűjtjük a mára már 70 milliárd szavasra duzzadt tanítókorpuszunkhoz az adatokat; milyen kihívásokkal szembesül az, aki nekiáll az internetes szöveggyűjtésnek; és milyen adattisztítási lépésekre van szükség ezeknél az adatoknál. A fentiek átgondolt tervezése és kivitelezése tette azt lehetővé, hogy a legújabb modellünk, a ChatPULI, a GPT-modelleknél is fluensebben, hibátlanul tudjon magyarul „beszélni”. - Drótos László (MNMKK OSZK): Adatok az adatokról – Az MNMKK OSZK webarchívuma 2025-ben
A nemzeti könyvtár Digitális Filológiai és Webarchiválási Osztályán folyó archiválási tevékenység eredményeképpen 2025-ben is több terabájttal nőtt a letöltött webtartalom. Az előadás számokkal és grafikonokkal illusztrálva mutatja be az újonnan létrehozott, illetve a jelentősen bővített részgyűjteményeket, és külön kitér az idei első webtér-szintű aratás előkészítő munkálataira, valamint annak eredményére. A Heritrix robottal való archiválás mellett sok gigabájtnyi mentés készült a Browsertrix Crawler nevű programmal és nagy mennyiségű a félautomatikus megoldásokkal letöltött közösségi média-tartalom is. A nyilvános gyűjtemény esetében több száz részletes metaadat-leírás született a Digitális Képarchívum munkatársainak köszönhetően. Az informatikai infrastruktúra és a munkafolyamatok megújításának részeként pedig elkészült annak az adatbázisnak a terve, amely az archiválandó és az archivált tartalmak adatainak nyilvántartása mellett egyes részfeladatok automatizált vezérlésére is használható lesz. - Kalcsó Gyula (MNMKK OSZK): Hírportálok napi mentése Browsertrix crawlerrel
Az előadás bemutatja az MNMKK OSZK DBK Digitális Filológiai és Webarchiválási Osztály webarchiválási csoportjának új eljárását válogatott magyar hírportálok napi szintű mentésére. A webarchiválásban használt aratórobotunk, a Heritrix bizonyos típusú tartalmakat gyengébb minőségben tud menteni, ugyanakkor sokkal kisebb az erőforrásigénye, ezért a tömeges aratásokban célszerűbb használni. A hírportálok dinamikus vagy felhasználói interakciót igénylő oldalait böngészőalapú crawlerrel pontosabban lehet archiválni. Erre a célra a Webrecorder-projekt Browsertrix nevű crawlerét használjuk, amelyet az egyes portálok esetén célzottan konfigurálunk annak érdekében, hogy megfelelő minőségű mentésekhez jussunk. Az előadás bemutat néhány példát arra, hogy milyen beállításokat kell alkalmazni a cél elérése érdekében, és hogyan történik a hírportálok címlapjának képernyőképpel történő mentése, valamint az aktuális napi hírek megtalálása és archiválása. Bemutatja azokat a felhasználói interakciókat szimuláló szkripteket is, amelyek segítségével egyes portálokon a görgetést és lapozást igénylő hírfolyamokat is menteni tudjuk.
Workshop:
- Kalcsó Gyula (MNMKK OSZK): Az archiválás új szintje – dinamikusan generált, interaktív webhelyek mentése böngészőalapú crawlerrel (Browsertrix)
A workshop célja, hogy bemutassa a résztvevőknek a Browsertrix crawler használatának alapjait. A Browsertrix böngészőalapú eszközként képes összetettebb, modern felépítésű webhelyek jó minőségű archiválására. Azok a webhelyek, amelyek felhasználói interaktivitás függvényében építik fel a böngészőben megjelenő struktúrájukat, hagyományosabb webarchiváló eszközökkel nem, vagy csak gyenge minőségben menthetők. A workshop résztvevői saját eszközeiken kipróbálhatják a Browsertrix telepítésének és konfigurálásának a lépéseit, és konkrét webhelyek próbamentésén és visszajátszásán keresztül tapasztalatot szerezhetnek a crawler használatában, ezáltal képessé válnak önálló mentések készítésére is.
Fényképek a rendezvényről:
(A fotókat Visky Ákos László készítette.)












