„Broad crawl” változatai közötti eltérés
(Új oldal, tartalma: „Az egy URL listában rögzített vagy valamilyen speciális szempontnak/témának megfelelő webhelyekre kiterjedő focused crawl típusú bejárással ellentétben…”) |
(Nincs különbség)
|
A lap jelenlegi, 2017. július 23., 13:27-kori változata
Az egy URL listában rögzített vagy valamilyen speciális szempontnak/témának megfelelő webhelyekre kiterjedő focused crawl típusú bejárással ellentétben olyan aratás, amikor a crawlert nem korlátozza a webhelyek száma vagy tartalma, hanem vagy semmilyen, vagy csak valami nagyon általános szempont szab határt annak, hogy milyen linkeket követ a robot. Például egy adott magas szintű domainen belül marad (pl. .hu vagy .gov.hu), vagy csak adott típusú szervereket jár be (pl. blogmotorokra épülőket vagy FTP site-okat), vagy csak adott nyelvű forrásokat gyűjt, stb. Tárhely- és egyéb okok miatt általában további szabályokat is beállítanak a robot üzemeltetői (pl. az egyes webhelyeket csak adott mélységig, ideig, fájlszámig és/vagy összméretig aratják). Mivel ilyenkor több szálon párhuzamosan sok szervert kérdez le egyszerre a robot, ezért gyorsabban töltődik az anyag, mint egy erősen fókuszált mentésnél, mert annál ki kell várni a polite crawlerekre jellemző várakozási időt két kérés között. Széles körű aratást jellemzően évente csak 1-4 alkalommal csinálnak a webarchívumok, mivel hónapokig is eltarthat a befejeződése, de vannak olyan esetek is, amikor végtelenített a ciklus (pl. az internetes keresők robotjainál).