„Focused crawl” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történ…”)
(Nincs különbség)

A lap 2017. július 23., 14:50-kori változata

A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a focused crawler, vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó seed listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a crawl frontierben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. pagerank-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, whitelist-ek és blacklist-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak.