„Focused crawl” változatai közötti eltérés
(Új oldal, tartalma: „A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történ…”) |
|||
1. sor: | 1. sor: | ||
− | A [[broad crawl]] típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a [[focused crawler]], vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó [[seed]] listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a [[crawl frontier]]ben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. [[ |
+ | A [[broad crawl]] típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a [[focused crawler]], vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó [[seed]] listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a [[crawl frontier]]ben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. [[PageRank]]-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, [[whitelist]]-ek és [[blacklist]]-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak. |
[[Category:FOGALMAK]] |
[[Category:FOGALMAK]] |
A lap jelenlegi, 2017. július 25., 19:21-kori változata
A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a focused crawler, vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó seed listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a crawl frontierben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. PageRank-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, whitelist-ek és blacklist-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak.