Focused crawler

Innen: MIA

Olyan crawler, amely valamilyen speciális szabályrendszer szerint követi a linkeket és dönti el, hogy mit töltsön le. Így pl. egy adott témára/eseményre fókuszáló webarchívum hozható létre, amelyben túlsúlyban vannak az értékes, releváns tartalmak. A fókuszálást a crawl frontierben definiált szabályok mellett a seed-ek gondos megválogatása is segíti (pl. tematikus linkgyűjtemények, a témában magas PageRank értékű ill. a visszalinkek száma alapján fontos oldalak). A frontier megtanítható arra, hogy már a linkekhez tartozó szövegek alapján valószínűsíteni tudja, hogy érdemes-e azokat a crawlernek követnie, továbbá öntanuló algoritmusok is építhetők bele a valóban releváns oldalak kiválogatásához.