Idei első webtér aratás

2020. június 30. és július 5. között lefutott az első olyan idei aratás, amely a magyar webtérből eddig általunk összegyűjtött valamennyi domén és aldomén címre kiterjedt. A kiinduló lista közel 270 ezer címet tartalmazott, az aratórobot öt nap alatt 50 millió URL -t talált, ebből 46 milliót sikeresen le is töltött, melyek közül csaknem 23 millió volt az új, eddig még nem archivált fájl, 2,4 TB összméretben. A részletes statisztika itt nézhető meg. (Az oldalképekre vonatkozó adatok csak becsült értékek, mert ezeknek a képfájloknak az elkészítése még folyamatban van.)

Ezek a webtér szintű aratások arra szolgálnak, hogy félévente készítsünk egy “pillanatfelvételt” a magyar internet minél nagyobb részéről, ezért az aratási paramétereket erősen lekorlátozzuk. Ez alkalommal például a kezdőlaptól csak 2 szintig követtük a linkeket lefelé, megpróbáltuk kizárni az audió, a videó és a tömörített fájlokat, valamint maximalizáltuk az egyes fájlok méretét (10 MB) és az egy szerverről letöltött tartalom összméretét is (1 GB).

TRIANON2020 részgyűjtemény

2020 januárjában kezdtük el gyűjteni a trianoni békediktátum 100. évfordulójával kapcsolatos cikkeket, tanulmányokat, interjúkat és egyéb online forrásokat. Az akkor készült mentéseket májusban néhány újabbal egészítettük ki és továbbra is folytatjuk a részgyűjtemény bővítését egészen az év végéig. A címlista jelenleg 110 tételt tartalmaz, köztük 2 teljes webhelyet, 4 podcastot és 2 videót. A letöltött tartalom összmérete 3 gigabájt.

Webarchiválás a kulturális törvényben

2020. május 19-én megszavazta az országgyűlés a kulturális törvényt módosító javaslatokat, köztük azt is, amely a nemzeti könyvtár feladatává teszi a webtartalom megőrzését. A módosítások szövege itt olvasható (84. oldal). A webarchiválás részletesebb szabályozásáról külön rendelet készül, amely várhatóan 2021-től lép életbe.