„Focused crawl” változatai közötti eltérés
(Új oldal, tartalma: „A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történ…”) |
(Nincs különbség)
|
A lap 2017. július 23., 14:50-kori változata
A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a focused crawler, vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó seed listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a crawl frontierben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. pagerank-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, whitelist-ek és blacklist-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak.