A Digitális Filológiai és Webarchiválási Osztály új neve ezentúl Digitális Megőrzési és Webarchiválási Osztály, az osztály vezetője Kalcsó Gyula, a felettes szervezeti egység pedig a Digitális Tartalom- és Szolgáltatásfejlesztési Főosztály.
A Köztérkép fotói és metaadataik a DKA-ban
Bekerültek az OSZK Digitális Képarchívumába a kozterkep.hu képmegosztó oldalról scraping technológiával begyűjtött, köztéri alkotásokat ábrázoló fényképek és a hozzájuk tartozó – a DKA-ban használt formátumra átkonvertált – adatok. A keresőfelület itt található és ugyancsak ezen az oldalon van a 41.156 tételt kilistázó gomb is. A projektről Kalcsó Gyula, a webarchiválási csoport vezetője a 2024-es Networkshopon számolt be, melynek prezentációját innen lehet letölteni, az előadásból készült cikk pedig az MTA könyvtárának repozitóriumában érhető el.
Befejeződött az OGYVAL2026 gyűjtemény archiválása
Az új kormány megalakulása után lezártuk a 2026. évi országgyűlési választásokkal kapcsolatos hírek, weboldalak és közösségi média tartalmak mentését, amit január 19-én kezdtünk el. Ennél a részgyűjteménynél első alkalommal töltöttünk le Reddit fórumokat, valamint nagy számban TikTok és 20 percnél rövidebb YouTube videókat. Utolsó lépésként pedig csináltunk egy aratást a kormany.hu honlapról is. Az archivált címek listája itt nézhető meg.
A régi MIA honlap átköltöztetése
A régi szerver közeljövőben várható leállítása miatt átmásoltuk az OSZK webarchiválási projektjének 2017 elején indult első honlapját a http://mekosztaly.oszk.hu/mia/ címről a https://webarchivum.oszk.hu/mia-regi-honlap/ címre. A honlap korábbi verzióinak mentései a https://webarchivum.oszk.hu/a-projektrol/a-projekt-regi-honlapja/ oldalról érhetők el.
Két előadás a webarchívum új adatbázisáról
A honlapunk „Előadások, prezentációk, publikációk” oldalára felkerült két PowerPoint prezentáció, melyeket Kalcsó Gyula tartott áprilisban a debreceni Networkshop, illetve a brüsszeli IIPC konferencián. Az első címe: „A magyar webarchívum új nyilvántartó adatbázisa” és itt érhető el, a másodiké pedig „Storing URLs, targets, and other time-varying entities in a database as a path to sustainable recordkeeping”, ami innen tölthető le.
Méretkorrekció a tömeges aratásoknál
A tömegesen aratott tematikus és műfaji részgyűjteményekben nagy különbségek vannak a nyilvántartott seed URL-ek számában (a legkisebb 850, a legnagyobb 13.000 címből áll), amit eddig a futásidő hosszával (3, 4 vagy 5 nap) próbáltunk kompenzálni. De a 2022 elején kialakított szisztéma óta jelentősen megnőtt néhány gyűjtemény mérete, valamint azt is tapasztaltunk, hogy a nagyobbak akár egy nap alatt meghaladják a minden aratásra egységesen vonatkozó 500 GB-os mérethatárt, míg mások ugyanezt csak több nap alatt érik el, vagy pedig meg sem közelítik, ráadásul a nagyoknál jelentős számú URL maradt várakozó állapotban, amiket nem töltött le a robot. Persze a kiinduló címek száma nem feltétlenül jellemzi, hogy az adott gyűjtemény webhelyein mekkora mennyiségű tartalom van, de azért logikus, hogy eszerint állapítsuk meg a mérethatárokat. Ezért most ökölszabályként 1000 URL-enként 100 GB méretet határoztunk meg, azzal a megkötéssel, hogy az eddigi eredmények és a gyűjtemény jellege szerint egyenként állapítjuk meg a tényleges mérethatárt, igazodva a paraméterezésre használt Kaptafában már meglévő értékekhez. Az egyéb aratási beállítások (mélység, eddigi futásidő stb.) nem változnak. A mai nap sikeresen elindult a kormányzati és önkormányzati intézmények, valamint a civil és politikai szervezetek webhelyeit tartalmazó KORMONKOR seed-lista aratása a szokott paraméterekkel (5 szint ugrási mélység, 5 nap futásidő), de a mérethatárt az eddiginek a duplájára, 1 TB-ra emeltük.
„Internetes tartalmak archiválása” tanfolyam prezentációi
A korábban készült tananyagok mellé felkerültek az első alkalommal 2026. március 24. és 27. között megtartott „Internetes tartalmak archiválása” című tanfolyamunk prezentációi is. A tartalomjegyzék végén van egy „Önellenőrző kérdések” link, ami egy olyan űrlapra visz, amellyel felmérhetjük, hogy mennyire sikerült elsajátítani a kurzuson elhangzottakat. A PowerPoint fájlok és a teszt ezen az oldalon érhetők el.
Visszanézhetők a „404-es” videók
A 2025. november 12-én megrendezett „404 Not Found” konferencia és workshop videófelvételei felkerültek a rendezvény weboldalára.
Elkészültek a demó gyűjtemény metaadatai
A nyilvánosan is elérhető mentéseket tartalmazó archívum oldalán most már minden webhelynél van részletes metaadat leírás XML formátumban, ami a barna színű nyíl gombra kattintva nézhető meg HTML-re konvertálva. Az XML fájlokhoz egy egyszerű keresőfelület is tartozik, amely itt érhető el.
2025. évi összesített adatok
Elkészültek a webarchívum tavalyi növekedési statisztikái, ezért frissítettük a számokat és grafikonokat az „Alapinformációk és -adatok” oldalon. A 2025. évi tömeges aratások összesítését mutató táblázatban az idén januárban lefutott webtér aratás adatai is benne vannak, mert az informatikai infrastruktúra cseréje miatt decemberben még nem működött az archiváló rendszer.