Webtér szintű aratások

A szelektív (tematikus és esemény alapú) aratások mellett évente egy-két alkalommal igyekszünk a magyar webtér minél nagyobb részéről egy „pillanatfelvételt” készíteni, vagyis néhány nap alatt lementeni több százezer honlapot a kezdőoldaltól kiindulva legalább két szint mélységig – helytakarékossági okokból a nagy méretű fájlokat kizárva. A kiindulásként használt URL-ek több forrásból származnak: a .hu országdomén alá bejegyzett publikus címlisták, a korábbi aratásokban talált linkekből kigyűjtött magyar domének és aldomének, az Internet Archive-tól kapott .hu „zónafájl”, valamint a tematikus részgyűjteményekhez emberi közreműködéssel összeválogatott vagy az ajánló űrlapon át érkezett (nemcsak .hu végű) honlapcímek.

Az alábbi táblázat az eddig lezajlott webtér szintű aratásokat tartalmazza. Ezeknek az anyaga is a zárt archívumba kerül hosszú távú megőrzés és kutatás céljából.

 

 

 

Aratás kezdete Aratás vége Kiinduló URL-ek száma Letöltött URL-ek száma
2022-12-02 2022-12-20 1 371 617 158 416 570
2022-06-24 2022-07-20 1 371 617 174 282 398
2021-12-26 2022-01-03   433 863   69 356 724
2021-07-07 2021-07-12   433 863    71 878 955
2020-12-30 2021-01-04   251 230    47 881 581
2020-06-30 2020-07-05   269 430    46 380 598
2019-12-23 2020-01-02   246 819  110 367 190
2018-09-24 2018-09-28   291 078  172 639 350