Szervezeti változás

A Digitális Filológiai és Webarchiválási Osztály új neve ezentúl Digitális Megőrzési és Webarchiválási Osztály, az osztály vezetője Kalcsó Gyula, a felettes szervezeti egység pedig a Digitális Tartalom- és Szolgáltatásfejlesztési Főosztály.

A Köztérkép fotói és metaadataik a DKA-ban

Bekerültek az OSZK Digitális Képarchívumába a kozterkep.hu képmegosztó oldalról scraping technológiával begyűjtött, köztéri alkotásokat ábrázoló fényképek és a hozzájuk tartozó – a DKA-ban használt formátumra átkonvertált – adatok. A keresőfelület itt található és ugyancsak ezen az oldalon van a 41.156 tételt kilistázó gomb is. A projektről Kalcsó Gyula, a webarchiválási csoport vezetője a 2024-es Networkshopon számolt be, melynek prezentációját innen lehet letölteni, az előadásból készült cikk pedig az MTA könyvtárának repozitóriumában érhető el.

Befejeződött az OGYVAL2026 gyűjtemény archiválása

Az új kormány megalakulása után lezártuk a 2026. évi országgyűlési választásokkal kapcsolatos hírek, weboldalak és közösségi média tartalmak mentését, amit január 19-én kezdtünk el. Ennél a részgyűjteménynél első alkalommal töltöttünk le Reddit fórumokat, valamint nagy számban TikTok és 20 percnél rövidebb YouTube videókat. Utolsó lépésként pedig csináltunk egy aratást a kormany.hu honlapról is. Az archivált címek listája itt nézhető meg.

Két előadás a webarchívum új adatbázisáról

A honlapunk „Előadások, prezentációk, publikációk” oldalára felkerült két PowerPoint prezentáció, melyeket Kalcsó Gyula tartott áprilisban a debreceni Networkshop, illetve a brüsszeli IIPC konferencián. Az első címe: „A magyar webarchívum új nyilvántartó adatbázisa” és itt érhető el, a másodiké pedig „Storing URLs, targets, and other time-varying entities in a database as a path to sustainable recordkeeping”, ami innen tölthető le.

Méretkorrekció a tömeges aratásoknál

A tömegesen aratott tematikus és műfaji részgyűjteményekben nagy különbségek vannak a nyilvántartott seed URL-ek számában (a legkisebb 850, a legnagyobb 13.000 címből áll), amit eddig a futásidő hosszával (3, 4 vagy 5 nap) próbáltunk kompenzálni. De a 2022 elején kialakított szisztéma óta jelentősen megnőtt néhány gyűjtemény mérete, valamint azt is tapasztaltunk, hogy a nagyobbak akár egy nap alatt meghaladják a minden aratásra egységesen vonatkozó 500 GB-os mérethatárt, míg mások ugyanezt csak több nap alatt érik el, vagy pedig meg sem közelítik, ráadásul a nagyoknál jelentős számú URL maradt várakozó állapotban, amiket nem töltött le a robot. Persze a kiinduló címek száma nem feltétlenül jellemzi, hogy az adott gyűjtemény webhelyein mekkora mennyiségű tartalom van, de azért logikus, hogy eszerint állapítsuk meg a mérethatárokat. Ezért most ökölszabályként 1000 URL-enként 100 GB méretet határoztunk meg, azzal a megkötéssel, hogy az eddigi eredmények és a gyűjtemény jellege szerint egyenként állapítjuk meg a tényleges mérethatárt, igazodva a paraméterezésre használt Kaptafában már meglévő értékekhez. Az egyéb aratási beállítások (mélység, eddigi futásidő stb.) nem változnak. A mai nap sikeresen elindult a kormányzati és önkormányzati intézmények, valamint a civil és politikai szervezetek webhelyeit tartalmazó KORMONKOR seed-lista aratása a szokott paraméterekkel (5 szint ugrási mélység, 5 nap futásidő), de a mérethatárt az eddiginek a duplájára, 1 TB-ra emeltük.

„Internetes tartalmak archiválása” tanfolyam prezentációi

A korábban készült tananyagok mellé felkerültek az első alkalommal 2026. március 24. és 27. között megtartott „Internetes tartalmak archiválása” című tanfolyamunk prezentációi is. A tartalomjegyzék végén van egy „Önellenőrző kérdések” link, ami egy olyan űrlapra visz, amellyel felmérhetjük, hogy mennyire sikerült elsajátítani a kurzuson elhangzottakat. A PowerPoint fájlok és a teszt ezen az oldalon érhetők el.

2025. évi összesített adatok

Elkészültek a webarchívum tavalyi növekedési statisztikái, ezért frissítettük a számokat és grafikonokat az „Alapinformációk és -adatok” oldalon. A 2025. évi tömeges aratások összesítését mutató táblázatban az idén januárban lefutott webtér aratás adatai is benne vannak, mert az informatikai infrastruktúra cseréje miatt decemberben még nem működött az archiváló rendszer.