Bekerültek az OSZK Digitális Képarchívumába a kozterkep.hu képmegosztó oldalról scraping technológiával begyűjtött, köztéri alkotásokat ábrázoló fényképek és a hozzájuk tartozó – a DKA-ban használt formátumra átkonvertált – adatok. A keresőfelület itt található és ugyancsak ezen az oldalon van a 41.156 tételt kilistázó gomb is. A projektről Kalcsó Gyula, a webarchiválási csoport vezetője a 2024-es Networkshopon számolt be, melynek prezentációját innen lehet letölteni, az előadásból készült cikk pedig az MTA könyvtárának repozitóriumában érhető el.
Befejeződött az OGYVAL2026 gyűjtemény archiválása
Az új kormány megalakulása után lezártuk a 2026. évi országgyűlési választásokkal kapcsolatos hírek, weboldalak és közösségi média tartalmak mentését, amit január 19-én kezdtünk el. Ennél a részgyűjteménynél első alkalommal töltöttünk le Reddit fórumokat, valamint nagy számban TikTok és 20 percnél rövidebb YouTube videókat. Utolsó lépésként pedig csináltunk egy aratást a kormany.hu honlapról is. Az archivált címek listája itt nézhető meg.
A régi MIA honlap átköltöztetése
A régi szerver közeljövőben várható leállítása miatt átmásoltuk az OSZK webarchiválási projektjének 2017 elején indult első honlapját a http://mekosztaly.oszk.hu/mia/ címről a https://webarchivum.oszk.hu/mia-regi-honlap/ címre. A honlap korábbi verzióinak mentései a https://webarchivum.oszk.hu/a-projektrol/a-projekt-regi-honlapja/ oldalról érhetők el.
Két előadás a webarchívum új adatbázisáról
A honlapunk „Előadások, prezentációk, publikációk” oldalára felkerült két PowerPoint prezentáció, melyeket Kalcsó Gyula tartott áprilisban a debreceni Networkshop, illetve a brüsszeli IIPC konferencián. Az első címe: „A magyar webarchívum új nyilvántartó adatbázisa” és itt érhető el, a másodiké pedig „Storing URLs, targets, and other time-varying entities in a database as a path to sustainable recordkeeping”, ami innen tölthető le.
Méretkorrekció a tömeges aratásoknál
A tömegesen aratott tematikus és műfaji részgyűjteményekben nagy különbségek vannak a nyilvántartott seed URL-ek számában (a legkisebb 850, a legnagyobb 13.000 címből áll), amit eddig a futásidő hosszával (3, 4 vagy 5 nap) próbáltunk kompenzálni. De a 2022 elején kialakított szisztéma óta jelentősen megnőtt néhány gyűjtemény mérete, valamint azt is tapasztaltunk, hogy a nagyobbak akár egy nap alatt meghaladják a minden aratásra egységesen vonatkozó 500 GB-os mérethatárt, míg mások ugyanezt csak több nap alatt érik el, vagy pedig meg sem közelítik, ráadásul a nagyoknál jelentős számú URL maradt várakozó állapotban, amiket nem töltött le a robot. Persze a kiinduló címek száma nem feltétlenül jellemzi, hogy az adott gyűjtemény webhelyein mekkora mennyiségű tartalom van, de azért logikus, hogy eszerint állapítsuk meg a mérethatárokat. Ezért most ökölszabályként 1000 URL-enként 100 GB méretet határoztunk meg, azzal a megkötéssel, hogy az eddigi eredmények és a gyűjtemény jellege szerint egyenként állapítjuk meg a tényleges mérethatárt, igazodva a paraméterezésre használt Kaptafában már meglévő értékekhez. Az egyéb aratási beállítások (mélység, eddigi futásidő stb.) nem változnak. A mai nap sikeresen elindult a kormányzati és önkormányzati intézmények, valamint a civil és politikai szervezetek webhelyeit tartalmazó KORMONKOR seed-lista aratása a szokott paraméterekkel (5 szint ugrási mélység, 5 nap futásidő), de a mérethatárt az eddiginek a duplájára, 1 TB-ra emeltük.
„Internetes tartalmak archiválása” tanfolyam prezentációi
A korábban készült tananyagok mellé felkerültek az első alkalommal 2026. március 24. és 27. között megtartott „Internetes tartalmak archiválása” című tanfolyamunk prezentációi is. A tartalomjegyzék végén van egy „Önellenőrző kérdések” link, ami egy olyan űrlapra visz, amellyel felmérhetjük, hogy mennyire sikerült elsajátítani a kurzuson elhangzottakat. A PowerPoint fájlok és a teszt ezen az oldalon érhetők el.
Visszanézhetők a „404-es” videók
A 2025. november 12-én megrendezett „404 Not Found” konferencia és workshop videófelvételei felkerültek a rendezvény weboldalára.
Elkészültek a demó gyűjtemény metaadatai
A nyilvánosan is elérhető mentéseket tartalmazó archívum oldalán most már minden webhelynél van részletes metaadat leírás XML formátumban, ami a barna színű nyíl gombra kattintva nézhető meg HTML-re konvertálva. Az XML fájlokhoz egy egyszerű keresőfelület is tartozik, amely itt érhető el.
2025. évi összesített adatok
Elkészültek a webarchívum tavalyi növekedési statisztikái, ezért frissítettük a számokat és grafikonokat az „Alapinformációk és -adatok” oldalon. A 2025. évi tömeges aratások összesítését mutató táblázatban az idén januárban lefutott webtér aratás adatai is benne vannak, mert az informatikai infrastruktúra cseréje miatt decemberben még nem működött az archiváló rendszer.
Címlista frissítése
Frissítettük és bővítettük az UKRAJNA2022 nevű részgyűjteményünk címlistáját, ami most kb. 160 információforrást tartalmaz, valamint az ezekhez tartozó több mint 900 címkés- vagy keresőlinket. Az orosz-ukrán konfliktussal, majd háborúval kapcsolatos híreket 2022 eleje óta heti gyakorisággal aratjuk és időről-időre felülvizsgáljuk a témával kapcsolatos kulcsszavakat, amelyeket a magyar hírportálok használnak. Most már végre a béketerv, béketárgyalások, békefolyamat stb. címkéket tartalmazó URL címek is megjelentek a listában, amely itt nézhető meg.