Crawler architecture

Innen: MIA

Egy crawler szoftver legegyszerűbb változata ilyen modulokból áll:

  • crawl frontier (a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
  • DNS resolution module (a domain nevek IP címekre való feloldását végzi, ami egy szűk keresztmetszet a webaratásoknál, mert egyes címek feloldására vagy a hibaüzenetre néha perceket kell várni; ezért szokás a már feloldott neveket egy DNS cache-ben helyben eltárolni, hogy ne kelljen mindig a DNS szervereket kérdezgetni)
  • fetch module (a HTTP protokollon keresztül letölti az adott weboldalt alkotó fájlokat)
  • parsing module (kielemzi a weboldal kódját, kiszedi belőle a szöveget és a linkeket)
  • duplicate elimination module (eldönti, hogy egy megtalált link benne van-e már a crawl frontier URI címlistájában, vagy fel kell venni újként a letöltendők közé\)

Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy crawler-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel deduplikálható a korábbi mentésekben már szereplő tartalom).