2025. évi összesített adatok

Elkészültek a webarchívum tavalyi növekedési statisztikái, ezért frissítettük a számokat és grafikonokat az „Alapinformációk és -adatok” oldalon. A 2025. évi tömeges aratások összesítését mutató táblázatban az idén januárban lefutott webtér aratás adatai is benne vannak, mert az informatikai infrastruktúra cseréje miatt decemberben még nem működött az archiváló rendszer.

Címlista frissítése

Frissítettük és bővítettük az UKRAJNA2022 nevű részgyűjteményünk címlistáját, ami most kb. 160 információforrást tartalmaz, valamint az ezekhez tartozó több mint 900 címkés- vagy keresőlinket. Az orosz-ukrán konfliktussal, majd háborúval kapcsolatos híreket 2022 eleje óta heti gyakorisággal aratjuk és időről-időre felülvizsgáljuk a témával kapcsolatos kulcsszavakat, amelyeket a magyar hírportálok használnak. Most már végre a béketerv, béketárgyalások, békefolyamat stb. címkéket tartalmazó URL címek is megjelentek a listában, amely itt nézhető meg.

Változás a szolgáltatási szerződéseknél

A korábbi gyakorlattól eltérően, ezentúl nem egy Word vagy PDF dokumentumot kell szerkeszteniük azoknak a természetes vagy jogi személyeknek, akik szeretnék, hogy a webhelyükről készült mentések elérhetőek legyenek a nyilvános webarchívumban is, hanem elég csak egy online adatlapot kitölteni és ezután az MNMKK OSZK elkészíti, majd két példányban postázza a felhasználási szerződést, melyek közül – aláírás után – az egyiket vissza kell juttatni. Az űrlap és egy szerződésminta erről az oldalról érhető el.

 

Megkésett webtér aratás

A webarchívum szervereinek és tárhelyeinek költöztetése miatt 2025 negyedik negyedévében nem tudtuk elvégezni a betervezett tömeges mentéseket, köztük a magyar webtér eddig felderített részéről készített „pillanatfelvételt” sem. Ezt most január 12. és 30. között pótoltuk oly módon, hogy a tavaly nyáron frissített és bővített címlistákról indítottuk el újra az archiváló szoftvert. A részletes statisztikák ezen az oldalon tekinthetők meg, az eddigi webtér-szintű aratások főbb adatai pedig itt vannak.

Új részgyűjtemény: Országgyűlési választás – 2026

OGYVAL2026 kódnévvel létrehoztunk egy új esemény-alapú részgyűjteményt az áprilisi parlamenti választásokkal foglalkozó hírek, webhelyek, egyedi dokumentumok és webkettes tartalmak archiválása céljából. Előbbiek automatikus aratása hetente történik, a közösségi média fiókok és bejegyzések mentése pedig minden hónap végén. A címlista itt tekinthető meg.

Informatikai infrastruktúra átállás

A webarchívum szervereinek és tárhelyeinek költöztetése miatt a szolgáltatásban fennakadások fordulhatnak elő a következő hetekben és szünetelnek a beütemezett aratások is (néhány nagyobb hírportál napi szintű mentésének kivételével). A honlap és a nyilvános gyűjtemény várhatóan folyamatosan elérhető marad, de utóbbinál a lejárt tanúsítvány miatt már csak úgy nyithatók meg az archivált verziók a Chrome böngészőben, ha az OpenWayback, a PyWb, illetve a SolrWayback megjelenítőket jelképező ikonokra jobb egérgombbal kattintunk rá és a menüből a „Link megnyitása inkognítóablakban” opciót választjuk.

2025 évi első webtér aratás

2025. július 28. és augusztus 21. között elkészült az idei első webtér-szintű aratás. A címlista bővítése érdekében az előző aratásnál használt seed-listához hozzáadtuk az összes korábbi címlistánkat, valamennyi tematikus és két műfaji (periodikák és podkasztok) részgyűjteményt, és kigyűjtöttük a 2018 óta készült WARC fájlokban talált, .hu-t tartalmazó URL-ekben levő domén/aldomén címeket is. A duplumok kiszűrése után lekérdeztük a webszerverek által visszaadott státuszkódot és a működőnek tűnő webhelyek kezdőlapjának title adatát is begyűjtöttük. Utóbbi alapján szétválogattuk a tömegesen generált aldoméneket, valamint az inaktív vagy bejelentkezést igénylő, illetve a gyűjtőkörön kívül eső oldalakat. Az előkészítő munka utolsó fázisaként megvizsgáltuk, hogy van-e robots.txt fájl a szerverek gyökérkönyvtárában, majd eltérő paraméterekkel egynás után elindítottunk három aratási jobot (tomeges, norobots és normal). Az összesített statisztikai adatok itt láthatók, az eddigi webtér aratások főbb adatainak összehasonlítása pedig itt nézhető meg táblázatként és grafikon formájában.