2025 évi első webtér aratás

2025. július 28. és augusztus 21. között elkészült az idei első webtér-szintű aratás. A címlista bővítése érdekében az előző aratásnál használt seed-listához hozzáadtuk az összes korábbi címlistánkat, valamennyi tematikus és két műfaji (periodikák és podkasztok) részgyűjteményt, és kigyűjtöttük a 2018 óta készült WARC fájlokban talált, .hu-t tartalmazó URL-ekben levő domén/aldomén címeket is. A duplumok kiszűrése után lekérdeztük a webszerverek által visszaadott státuszkódot és a működőnek tűnő webhelyek kezdőlapjának title adatát is begyűjtöttük. Utóbbi alapján szétválogattuk a tömegesen generált aldoméneket, valamint az inaktív vagy bejelentkezést igénylő, illetve a gyűjtőkörön kívül eső oldalakat. Az előkészítő munka utolsó fázisaként megvizsgáltuk, hogy van-e robots.txt fájl a szerverek gyökérkönyvtárában, majd eltérő paraméterekkel egynás után elindítottunk három aratási jobot (tomeges, norobots és normal). Az összesített statisztikai adatok itt láthatók, az eddigi webtér aratások főbb adatainak összehasonlítása pedig itt nézhető meg táblázatként és grafikon formájában.