„Crawler architecture” változatai közötti eltérés

A lap jelenlegi, 2017. július 23., 16:23-kori változata

Egy crawler szoftver legegyszerűbb változata ilyen modulokból áll:

crawl frontier (a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
DNS resolution module (a domain nevek IP címekre való feloldását végzi, ami egy szűk keresztmetszet a webaratásoknál, mert egyes címek feloldására vagy a hibaüzenetre néha perceket kell várni; ezért szokás a már feloldott neveket egy DNS cache-ben helyben eltárolni, hogy ne kelljen mindig a DNS szervereket kérdezgetni)
fetch module (a HTTP protokollon keresztül letölti az adott weboldalt alkotó fájlokat)
parsing module (kielemzi a weboldal kódját, kiszedi belőle a szöveget és a linkeket)
duplicate elimination module (eldönti, hogy egy megtalált link benne van-e már a crawl frontier URI címlistájában, vagy fel kell venni újként a letöltendők közé\)

Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy crawler-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel deduplikálható a korábbi mentésekben már szereplő tartalom).

Christopher D. Manning - Prabhakar Raghavan - Hinrich Schütze: Introduction to Information Retrieval : Crawler architecture

@@ 2. sor: / 2. sor: @@
 Egy [[crawler]] szoftver legegyszerűbb változata ilyen modulokból áll:
-* [[crawl frontier]] \(a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
+* [[crawl frontier]] (a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
 * DNS resolution module (a domain nevek IP címekre való feloldását végzi, ami egy szűk keresztmetszet a webaratásoknál, mert egyes címek feloldására vagy a hibaüzenetre néha perceket kell várni; ezért szokás a már feloldott neveket egy DNS cache-ben helyben eltárolni, hogy ne kelljen mindig a DNS szervereket kérdezgetni)
 * fetch module (a HTTP protokollon keresztül letölti az adott weboldalt alkotó fájlokat)
@@ 9. sor: / 9. sor: @@
 Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy [[crawler]]-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel [[de-duplication|deduplikálható]] a korábbi mentésekben már szereplő tartalom).
+----
 * [https://nlp.stanford.edu/IR-book/html/htmledition/crawler-architecture-1.html Christopher D. Manning - Prabhakar Raghavan - Hinrich Schütze: Introduction to Information Retrieval : Crawler architecture]

„Crawler architecture” változatai közötti eltérés

A lap jelenlegi, 2017. július 23., 16:23-kori változata

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök