Crawler architecture

Egy crawler szoftver legegyszerűbb változata ilyen modulokból áll:

crawl frontier (a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
DNS resolution module (a domain nevek IP címekre való feloldását végzi, ami egy szűk keresztmetszet a webaratásoknál, mert egyes címek feloldására vagy a hibaüzenetre néha perceket kell várni; ezért szokás a már feloldott neveket egy DNS cache-ben helyben eltárolni, hogy ne kelljen mindig a DNS szervereket kérdezgetni)
fetch module (a HTTP protokollon keresztül letölti az adott weboldalt alkotó fájlokat)
parsing module (kielemzi a weboldal kódját, kiszedi belőle a szöveget és a linkeket)
duplicate elimination module (eldönti, hogy egy megtalált link benne van-e már a crawl frontier URI címlistájában, vagy fel kell venni újként a letöltendők közé\)

Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy crawler-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel deduplikálható a korábbi mentésekben már szereplő tartalom).

Christopher D. Manning - Prabhakar Raghavan - Hinrich Schütze: Introduction to Information Retrieval : Crawler architecture

Crawler architecture

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök