„Polite crawler” változatai közötti eltérés
(Új oldal, tartalma: „A crawlerek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon r…”) |
|||
1. sor: | 1. sor: | ||
A [[crawler]]ek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a [[robots txt|robots.txt]] protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a [[robots txt|robots.txt]]-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a [[crawler trap]]okat. |
A [[crawler]]ek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a [[robots txt|robots.txt]] protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a [[robots txt|robots.txt]]-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a [[crawler trap]]okat. |
||
+ | |||
+ | ---- |
||
* [https://en.wikipedia.org/wiki/Web_crawler#Politeness_policy Wikipedia: Web crawler/Politeness policy] |
* [https://en.wikipedia.org/wiki/Web_crawler#Politeness_policy Wikipedia: Web crawler/Politeness policy] |
A lap jelenlegi, 2017. július 23., 15:47-kori változata
A crawlerek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a robots.txt protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a robots.txt-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a crawler trapokat.