Sport témájú részgyűjtemény

Új tematikus részgyűjteménnyel bővült a webarchívum nem publikus része. Több mint 3 ezer sport témájú webhelyről – főként szövetségek, egyesületek, csapatok honlapjairól – készítettünk mentéseket szeptember 18. és 21. között, kb. fél terabájt összméretben. A részletes statisztika itt látható, a címlistát pedig itt lehet megnézni.

3K cikk a webarchívum új honlapjáról

A “Könyv, Könyvtár, Könyvtáros” folyóirat idei 6. számában Németh Márton publikált egy cikket, melyben a webarchívum ez év elején indult új honlapját mutatja be, s egyben áttekintést ad a projekt jelenlegi helyzetéről és a távlati tervekről. A cikk az Elektronikus Periodika Archívumból tölthető le ide kattintva.

Idei első webtér aratás

2020. június 30. és július 5. között lefutott az első olyan idei aratás, amely a magyar webtérből eddig általunk összegyűjtött valamennyi domén és aldomén címre kiterjedt. A kiinduló lista közel 270 ezer címet tartalmazott, az aratórobot öt nap alatt 50 millió URL -t talált, ebből 46 milliót sikeresen le is töltött, melyek közül csaknem 23 millió volt az új, eddig még nem archivált fájl, 2,4 TB összméretben. A részletes statisztika itt nézhető meg. (Az oldalképekre vonatkozó adatok csak becsült értékek, mert ezeknek a képfájloknak az elkészítése még folyamatban van.)

Ezek a webtér szintű aratások arra szolgálnak, hogy félévente készítsünk egy „pillanatfelvételt” a magyar internet minél nagyobb részéről, ezért az aratási paramétereket erősen lekorlátozzuk. Ez alkalommal például a kezdőlaptól csak 2 szintig követtük a linkeket lefelé, megpróbáltuk kizárni az audió, a videó és a tömörített fájlokat, valamint maximalizáltuk az egyes fájlok méretét (10 MB) és az egy szerverről letöltött tartalom összméretét is (1 GB).