„Crawler architecture” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „ Egy crawler szoftver legegyszerűbb változata ilyen modulokból áll: * crawl frontier \(a feldolgozandó URI címeket és a feldolgozási szabályokat tarta…”)
 
 
2. sor: 2. sor:
 
Egy [[crawler]] szoftver legegyszerűbb változata ilyen modulokból áll:
 
Egy [[crawler]] szoftver legegyszerűbb változata ilyen modulokból áll:
   
* [[crawl frontier]] \(a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
+
* [[crawl frontier]] (a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
 
* DNS resolution module (a domain nevek IP címekre való feloldását végzi, ami egy szűk keresztmetszet a webaratásoknál, mert egyes címek feloldására vagy a hibaüzenetre néha perceket kell várni; ezért szokás a már feloldott neveket egy DNS cache-ben helyben eltárolni, hogy ne kelljen mindig a DNS szervereket kérdezgetni)
 
* DNS resolution module (a domain nevek IP címekre való feloldását végzi, ami egy szűk keresztmetszet a webaratásoknál, mert egyes címek feloldására vagy a hibaüzenetre néha perceket kell várni; ezért szokás a már feloldott neveket egy DNS cache-ben helyben eltárolni, hogy ne kelljen mindig a DNS szervereket kérdezgetni)
 
* fetch module (a HTTP protokollon keresztül letölti az adott weboldalt alkotó fájlokat)
 
* fetch module (a HTTP protokollon keresztül letölti az adott weboldalt alkotó fájlokat)
9. sor: 9. sor:
   
 
Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy [[crawler]]-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel [[de-duplication|deduplikálható]] a korábbi mentésekben már szereplő tartalom).
 
Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy [[crawler]]-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel [[de-duplication|deduplikálható]] a korábbi mentésekben már szereplő tartalom).
  +
  +
----
   
 
* [https://nlp.stanford.edu/IR-book/html/htmledition/crawler-architecture-1.html Christopher D. Manning - Prabhakar Raghavan - Hinrich Schütze: Introduction to Information Retrieval : Crawler architecture]
 
* [https://nlp.stanford.edu/IR-book/html/htmledition/crawler-architecture-1.html Christopher D. Manning - Prabhakar Raghavan - Hinrich Schütze: Introduction to Information Retrieval : Crawler architecture]

A lap jelenlegi, 2017. július 23., 16:23-kori változata

Egy crawler szoftver legegyszerűbb változata ilyen modulokból áll:

  • crawl frontier (a feldolgozandó URI címeket és a feldolgozási szabályokat tartalmazza)
  • DNS resolution module (a domain nevek IP címekre való feloldását végzi, ami egy szűk keresztmetszet a webaratásoknál, mert egyes címek feloldására vagy a hibaüzenetre néha perceket kell várni; ezért szokás a már feloldott neveket egy DNS cache-ben helyben eltárolni, hogy ne kelljen mindig a DNS szervereket kérdezgetni)
  • fetch module (a HTTP protokollon keresztül letölti az adott weboldalt alkotó fájlokat)
  • parsing module (kielemzi a weboldal kódját, kiszedi belőle a szöveget és a linkeket)
  • duplicate elimination module (eldönti, hogy egy megtalált link benne van-e már a crawl frontier URI címlistájában, vagy fel kell venni újként a letöltendők közé\)

Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy crawler-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel deduplikálható a korábbi mentésekben már szereplő tartalom).