A tömegesen aratott tematikus és műfaji részgyűjteményekben nagy különbségek vannak a nyilvántartott seed URL-ek számában (a legkisebb 850, a legnagyobb 13.000 címből áll), amit eddig a futásidő hosszával (3, 4 vagy 5 nap) próbáltunk kompenzálni. De a 2022 elején kialakított szisztéma óta jelentősen megnőtt néhány gyűjtemény mérete, valamint azt is tapasztaltunk, hogy a nagyobbak akár egy nap alatt meghaladják a minden aratásra egységesen vonatkozó 500 GB-os mérethatárt, míg mások ugyanezt csak több nap alatt érik el, vagy pedig meg sem közelítik, ráadásul a nagyoknál jelentős számú URL maradt várakozó állapotban, amiket nem töltött le a robot. Persze a kiinduló címek száma nem feltétlenül jellemzi, hogy az adott gyűjtemény webhelyein mekkora mennyiségű tartalom van, de azért logikus, hogy eszerint állapítsuk meg a mérethatárokat. Ezért most ökölszabályként 1000 URL-enként 100 GB méretet határoztunk meg, azzal a megkötéssel, hogy az eddigi eredmények és a gyűjtemény jellege szerint egyenként állapítjuk meg a tényleges mérethatárt, igazodva a paraméterezésre használt Kaptafában már meglévő értékekhez. Az egyéb aratási beállítások (mélység, eddigi futásidő stb.) nem változnak. A mai nap sikeresen elindult a kormányzati és önkormányzati intézmények, valamint a civil és politikai szervezetek webhelyeit tartalmazó KORMONKOR seed-lista aratása a szokott paraméterekkel (5 szint ugrási mélység, 5 nap futásidő), de a mérethatárt az eddiginek a duplájára, 1 TB-ra emeltük.
„Internetes tartalmak archiválása” tanfolyam prezentációi
A korábban készült tananyagok mellé felkerültek az első alkalommal 2026. március 24. és 27. között megtartott „Internetes tartalmak archiválása” című tanfolyamunk prezentációi is. A tartalomjegyzék végén van egy „Önellenőrző kérdések” link, ami egy olyan űrlapra visz, amellyel felmérhetjük, hogy mennyire sikerült elsajátítani a kurzuson elhangzottakat. A PowerPoint fájlok és a teszt ezen az oldalon érhetők el.
Visszanézhetők a „404-es” videók
A 2025. november 12-én megrendezett „404 Not Found” konferencia és workshop videófelvételei felkerültek a rendezvény weboldalára.
Elkészültek a demó gyűjtemény metaadatai
A nyilvánosan is elérhető mentéseket tartalmazó archívum oldalán most már minden webhelynél van részletes metaadat leírás XML formátumban, ami a barna színű nyíl gombra kattintva nézhető meg HTML-re konvertálva. Az XML fájlokhoz egy egyszerű keresőfelület is tartozik, amely itt érhető el.
2025. évi összesített adatok
Elkészültek a webarchívum tavalyi növekedési statisztikái, ezért frissítettük a számokat és grafikonokat az „Alapinformációk és -adatok” oldalon. A 2025. évi tömeges aratások összesítését mutató táblázatban az idén januárban lefutott webtér aratás adatai is benne vannak, mert az informatikai infrastruktúra cseréje miatt decemberben még nem működött az archiváló rendszer.
Címlista frissítése
Frissítettük és bővítettük az UKRAJNA2022 nevű részgyűjteményünk címlistáját, ami most kb. 160 információforrást tartalmaz, valamint az ezekhez tartozó több mint 900 címkés- vagy keresőlinket. Az orosz-ukrán konfliktussal, majd háborúval kapcsolatos híreket 2022 eleje óta heti gyakorisággal aratjuk és időről-időre felülvizsgáljuk a témával kapcsolatos kulcsszavakat, amelyeket a magyar hírportálok használnak. Most már végre a béketerv, béketárgyalások, békefolyamat stb. címkéket tartalmazó URL címek is megjelentek a listában, amely itt nézhető meg.
Változás a szolgáltatási szerződéseknél
A korábbi gyakorlattól eltérően, ezentúl nem egy Word vagy PDF dokumentumot kell szerkeszteniük azoknak a természetes vagy jogi személyeknek, akik szeretnék, hogy a webhelyükről készült mentések elérhetőek legyenek a nyilvános webarchívumban is, hanem elég csak egy online adatlapot kitölteni és ezután az MNMKK OSZK elkészíti, majd két példányban postázza a felhasználási szerződést, melyek közül – aláírás után – az egyiket vissza kell juttatni. Az űrlap és egy szerződésminta erről az oldalról érhető el.
Megkésett webtér aratás
A webarchívum szervereinek és tárhelyeinek költöztetése miatt 2025 negyedik negyedévében nem tudtuk elvégezni a betervezett tömeges mentéseket, köztük a magyar webtér eddig felderített részéről készített „pillanatfelvételt” sem. Ezt most január 12. és 30. között pótoltuk oly módon, hogy a tavaly nyáron frissített és bővített címlistákról indítottuk el újra az archiváló szoftvert. A részletes statisztikák ezen az oldalon tekinthetők meg, az eddigi webtér-szintű aratások főbb adatai pedig itt vannak.
Új részgyűjtemény: Országgyűlési választás – 2026
OGYVAL2026 kódnévvel létrehoztunk egy új esemény-alapú részgyűjteményt az áprilisi parlamenti választásokkal foglalkozó hírek, webhelyek, egyedi dokumentumok és webkettes tartalmak archiválása céljából. Előbbiek automatikus aratása hetente történik, a közösségi média fiókok és bejegyzések mentése pedig minden hónap végén. A címlista itt tekinthető meg.
„404 Not Found” ismét
2025. november 12-én kerül megrendezésre az idei „404 Not Found – Ki őrzi meg az internetet?” konferencia és workshop. A részletes program az OSZK honlapján olvasható, regisztrálni pedig itt lehet.