„Crawler trap” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „= (spider trap) = Weboldalak olyan sorozata, amely szándékosan vagy akaratlanul végtelen ciklusba vezeti a crawlert, vagy a program összeomlásához vezet (pl.…”)
(Nincs különbség)

A lap 2017. július 23., 14:34-kori változata

(spider trap)

Weboldalak olyan sorozata, amely szándékosan vagy akaratlanul végtelen ciklusba vezeti a crawlert, vagy a program összeomlásához vezet (pl. végtelen mély alkönyvtárstruktúra, végtelen sok dinamikusan generálódó weboldal, igen nagy számú karaktert tartalmazó oldal, amitől az elemző algoritmus elszáll). Ilyen csapdákat szándékosan is csinálnak a weboldalakon található e-mail címekre vadászó spambot-ok vagy a nem polite crawler-ek "elfogása" céljából, amelyek túlságosan leterhelik a szervert, pazarolják a sávszélességet. A csapdába befutó robotot azután vagy kitiltják a szerverről, vagy szép lassan etetik végtelen sok haszontalan vagy hamis információval. Mivel az ilyen programok írói egy idő után felkészítik a robotjukat a csapdák elkerülésére, ezért mindig újabb technikákat kell kitalálni a szerverek védelmében. A gondosabb rendszergazdák a robots.txt-ben megadják a csapdák elkerülésének módját, így csak azok a bot-ok és crawlerek kerülnek bele, amelyek figyelmen kívül hagyják a robots.txt-t.