Híroldalak napi mentése

Az elmúlt hetekben, egyelőre kísérleti jelleggel, elkezdtük néhány ismertebb magyar hírportál és online napilap, valamint egy hírgyűjtő oldal kezdőlapjának és az arról elérhető cikkeknek a napi szintű mentését. Ehhez a Brozzler nevű szoftvert használjuk, amely egy böngészőn keresztül menti a szervertől kapott fájlokat, így pontosabban lehet letölteni és utána rekonstruálni ezeket a komplex weblapokat, mint egy „buta” robottal való aratással. A naponta archivált híroldalak jelenleg a következők: 24.hu, 444.hu, 888.hu, blikk.hu, borsonline.hu, hirado.hu, hirkereso.hu, hvg.hu, index.hu, magyarnemzet.hu, mandiner.hu, napi.hu, nemzetisport.hu, origo.hu, portfolio.hu, ripost.hu és szeretlekmagyarorszag.hu.

Sport témájú részgyűjtemény

Új tematikus részgyűjteménnyel bővült a webarchívum nem publikus része. Több mint 3 ezer sport témájú webhelyről – főként szövetségek, egyesületek, csapatok honlapjairól – készítettünk mentéseket szeptember 18. és 21. között, kb. fél terabájt összméretben. A részletes statisztika itt látható, a címlistát pedig itt lehet megnézni.

3K cikk a webarchívum új honlapjáról

A “Könyv, Könyvtár, Könyvtáros” folyóirat idei 6. számában Németh Márton publikált egy cikket, melyben a webarchívum ez év elején indult új honlapját mutatja be, s egyben áttekintést ad a projekt jelenlegi helyzetéről és a távlati tervekről. A cikk az Elektronikus Periodika Archívumból tölthető le ide kattintva.

Idei első webtér aratás

2020. június 30. és július 5. között lefutott az első olyan idei aratás, amely a magyar webtérből eddig általunk összegyűjtött valamennyi domén és aldomén címre kiterjedt. A kiinduló lista közel 270 ezer címet tartalmazott, az aratórobot öt nap alatt 50 millió URL -t talált, ebből 46 milliót sikeresen le is töltött, melyek közül csaknem 23 millió volt az új, eddig még nem archivált fájl, 2,4 TB összméretben. A részletes statisztika itt nézhető meg. (Az oldalképekre vonatkozó adatok csak becsült értékek, mert ezeknek a képfájloknak az elkészítése még folyamatban van.)

Ezek a webtér szintű aratások arra szolgálnak, hogy félévente készítsünk egy „pillanatfelvételt” a magyar internet minél nagyobb részéről, ezért az aratási paramétereket erősen lekorlátozzuk. Ez alkalommal például a kezdőlaptól csak 2 szintig követtük a linkeket lefelé, megpróbáltuk kizárni az audió, a videó és a tömörített fájlokat, valamint maximalizáltuk az egyes fájlok méretét (10 MB) és az egy szerverről letöltött tartalom összméretét is (1 GB).