„Focused crawler” változatai közötti eltérés
(Új oldal, tartalma: „Olyan crawler, amely valamilyen speciális szabályrendszer szerint követi a linkeket és dönti el, hogy mit töltsön le. Így pl. egy adott témára/eseményre…”) |
(Nincs különbség)
|
A lap 2017. július 23., 14:51-kori változata
Olyan crawler, amely valamilyen speciális szabályrendszer szerint követi a linkeket és dönti el, hogy mit töltsön le. Így pl. egy adott témára/eseményre fókuszáló webarchívum hozható létre, amelyben túlsúlyban vannak az értékes, releváns tartalmak. A fókuszálást a crawl frontierben definiált szabályok mellett a seed-ek gondos megválogatása is segíti (pl. tematikus linkgyűjtemények, a témában magas PageRank értékű ill. a visszalinkek száma alapján fontos oldalak). A frontier megtanítható arra, hogy már a linkekhez tartozó szövegek alapján valószínűsíteni tudja, hogy érdemes-e azokat a crawlernek követnie, továbbá öntanuló algoritmusok is építhetők bele a valóban releváns oldalak kiválogatásához.