Crawler architecture
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2017. július 23., 15:23-kor történt szerkesztése után volt.
Egy crawler szoftver legegyszerűbb változata ilyen modulokból áll:
- crawl frontier (a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
- DNS resolution module (a domain nevek IP címekre való feloldását végzi, ami egy szűk keresztmetszet a webaratásoknál, mert egyes címek feloldására vagy a hibaüzenetre néha perceket kell várni; ezért szokás a már feloldott neveket egy DNS cache-ben helyben eltárolni, hogy ne kelljen mindig a DNS szervereket kérdezgetni)
- fetch module (a HTTP protokollon keresztül letölti az adott weboldalt alkotó fájlokat)
- parsing module (kielemzi a weboldal kódját, kiszedi belőle a szöveget és a linkeket)
- duplicate elimination module (eldönti, hogy egy megtalált link benne van-e már a crawl frontier URI címlistájában, vagy fel kell venni újként a letöltendők közé\)
Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy crawler-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel deduplikálható a korábbi mentésekben már szereplő tartalom).