Webtér aratás 2022/1

2022. június 24. és július 20. között  három menetben lefutott az idei első webtér szintű aratás, és mostanra elkészültek az indexfájlok és az oldalképek is. Összességében 1,37 millió seed címről elindulva mintegy 180 millió URL talált a Heritrix robot és több mint 174 milliót sikeresen le is töltött, melyből 90 millió volt a korábban nem archivált vagy időközben megváltozott fájl. Méretileg a letöltött tartalom 8,89 terabájt, a ténylegesen eltárolt anyag pedig 6,13 terabájt lett. Az előző, 2021 december végén indított webtér aratáshoz képest darabszámban 3-szor, méretben pedig 2,5-szer több tartalmat mentettünk le, ami a megnövelt aratási mélységnek és futási időnek, valamint a seed lista megháromszorozásának köszönhető.  A részletes statisztika – a korábbi aratások adataival együtt – itt nézhető meg.

A seed URL címekhez megpróbáltuk a kezdőoldal title adatát is letölteni, ami szintén csak több menetben, különböző szoftvereket használva sikerült. Végül 90 ezer „névtelen” webhely maradt, a többiről van legalább valamilyen – sajnos gyakran semmitmondó – névadatunk.  A webtér címlistában itt lehet keresni.