A Köztérkép fotói és metaadataik a DKA-ban

Bekerültek az OSZK Digitális Képarchívumába a kozterkep.hu képmegosztó oldalról scraping technológiával begyűjtött, köztéri alkotásokat ábrázoló fényképek és a hozzájuk tartozó – a DKA-ban használt formátumra átkonvertált – adatok. A keresőfelület itt található és ugyancsak ezen az oldalon van a 41.156 tételt kilistázó gomb is. A projektről Kalcsó Gyula, a webarchiválási csoport vezetője a 2024-es Networkshopon számolt be, melynek prezentációját innen lehet letölteni, az előadásból készült cikk pedig az MTA könyvtárának repozitóriumában érhető el.

Befejeződött az OGYVAL2026 gyűjtemény archiválása

Az új kormány megalakulása után lezártuk a 2026. évi országgyűlési választásokkal kapcsolatos hírek, weboldalak és közösségi média tartalmak mentését, amit január 19-én kezdtünk el. Ennél a részgyűjteménynél első alkalommal töltöttünk le Reddit fórumokat, valamint nagy számban TikTok és 20 percnél rövidebb YouTube videókat. Utolsó lépésként pedig csináltunk egy aratást a kormany.hu honlapról is. Az archivált címek listája itt nézhető meg.

Két előadás a webarchívum új adatbázisáról

A honlapunk „Előadások, prezentációk, publikációk” oldalára felkerült két PowerPoint prezentáció, melyeket Kalcsó Gyula tartott áprilisban a debreceni Networkshop, illetve a brüsszeli IIPC konferencián. Az első címe: „A magyar webarchívum új nyilvántartó adatbázisa” és itt érhető el, a másodiké pedig „Storing URLs, targets, and other time-varying entities in a database as a path to sustainable recordkeeping”, ami innen tölthető le.

Méretkorrekció a tömeges aratásoknál

A tömegesen aratott tematikus és műfaji részgyűjteményekben nagy különbségek vannak a nyilvántartott seed URL-ek számában (a legkisebb 850, a legnagyobb 13.000 címből áll), amit eddig a futásidő hosszával (3, 4 vagy 5 nap) próbáltunk kompenzálni. De a 2022 elején kialakított szisztéma óta jelentősen megnőtt néhány gyűjtemény mérete, valamint azt is tapasztaltunk, hogy a nagyobbak akár egy nap alatt meghaladják a minden aratásra egységesen vonatkozó 500 GB-os mérethatárt, míg mások ugyanezt csak több nap alatt érik el, vagy pedig meg sem közelítik, ráadásul a nagyoknál jelentős számú URL maradt várakozó állapotban, amiket nem töltött le a robot. Persze a kiinduló címek száma nem feltétlenül jellemzi, hogy az adott gyűjtemény webhelyein mekkora mennyiségű tartalom van, de azért logikus, hogy eszerint állapítsuk meg a mérethatárokat. Ezért most ökölszabályként 1000 URL-enként 100 GB méretet határoztunk meg, azzal a megkötéssel, hogy az eddigi eredmények és a gyűjtemény jellege szerint egyenként állapítjuk meg a tényleges mérethatárt, igazodva a paraméterezésre használt Kaptafában már meglévő értékekhez. Az egyéb aratási beállítások (mélység, eddigi futásidő stb.) nem változnak. A mai nap sikeresen elindult a kormányzati és önkormányzati intézmények, valamint a civil és politikai szervezetek webhelyeit tartalmazó KORMONKOR seed-lista aratása a szokott paraméterekkel (5 szint ugrási mélység, 5 nap futásidő), de a mérethatárt az eddiginek a duplájára, 1 TB-ra emeltük.

„Internetes tartalmak archiválása” tanfolyam prezentációi

A korábban készült tananyagok mellé felkerültek az első alkalommal 2026. március 24. és 27. között megtartott „Internetes tartalmak archiválása” című tanfolyamunk prezentációi is. A tartalomjegyzék végén van egy „Önellenőrző kérdések” link, ami egy olyan űrlapra visz, amellyel felmérhetjük, hogy mennyire sikerült elsajátítani a kurzuson elhangzottakat. A PowerPoint fájlok és a teszt ezen az oldalon érhetők el.

2025. évi összesített adatok

Elkészültek a webarchívum tavalyi növekedési statisztikái, ezért frissítettük a számokat és grafikonokat az „Alapinformációk és -adatok” oldalon. A 2025. évi tömeges aratások összesítését mutató táblázatban az idén januárban lefutott webtér aratás adatai is benne vannak, mert az informatikai infrastruktúra cseréje miatt decemberben még nem működött az archiváló rendszer.

Címlista frissítése

Frissítettük és bővítettük az UKRAJNA2022 nevű részgyűjteményünk címlistáját, ami most kb. 160 információforrást tartalmaz, valamint az ezekhez tartozó több mint 900 címkés- vagy keresőlinket. Az orosz-ukrán konfliktussal, majd háborúval kapcsolatos híreket 2022 eleje óta heti gyakorisággal aratjuk és időről-időre felülvizsgáljuk a témával kapcsolatos kulcsszavakat, amelyeket a magyar hírportálok használnak. Most már végre a béketerv, béketárgyalások, békefolyamat stb. címkéket tartalmazó URL címek is megjelentek a listában, amely itt nézhető meg.