„Deep web” változatai közötti eltérés
(Új oldal, tartalma: „= (hidden web, invisible web) = Az internetes keresők (és egyben a webarchívumok) crawler-jei számára "rejtett", nem bejárható weboldalak halmaza. Egy 2001-…”) |
|||
13. sor: | 13. sor: | ||
Hogy egy webhely a deep web része-e, az természetesen az adott crawler képességeitől is függ, vannak már olyan szoftver robotok, amelyek egy keresőűrlapot az adott nyelv szavaival véletlenszerűen kitöltve képesek találati weboldalakat generálni és ezeket leindexelni; illetve olyanok is, amelyek egyéb emberi interakciókat is szimulálnak (pl. görgetik a webkettes helyeken az oldalakat, hogy a dinamikusan felkerülő tartalom is megjelenjen rajtuk). |
Hogy egy webhely a deep web része-e, az természetesen az adott crawler képességeitől is függ, vannak már olyan szoftver robotok, amelyek egy keresőűrlapot az adott nyelv szavaival véletlenszerűen kitöltve képesek találati weboldalakat generálni és ezeket leindexelni; illetve olyanok is, amelyek egyéb emberi interakciókat is szimulálnak (pl. görgetik a webkettes helyeken az oldalakat, hogy a dinamikusan felkerülő tartalom is megjelenjen rajtuk). |
||
+ | |||
+ | ---- |
||
* [https://hu.wikipedia.org/wiki/L%C3%A1thatatlan_web Wikipédia: Láthatatlan web] |
* [https://hu.wikipedia.org/wiki/L%C3%A1thatatlan_web Wikipédia: Láthatatlan web] |
A lap jelenlegi, 2017. július 23., 15:25-kori változata
Az internetes keresők (és egyben a webarchívumok) crawler-jei számára "rejtett", nem bejárható weboldalak halmaza. Egy 2001-es becslés szerint a webnek ez a része kb. 400-550-szerese a robotokkal elérhető felszíni webnek. (Ez az arány azóta valószínűleg még nagyobb lett a crawler-ek fejlődése ellenére.) A deep webet alkotó szolgáltatások jelentős része az emberek számára viszont elérhető (legfeljebb regisztrációhoz vagy előfizetéshez kötött) és sokszor értékesebb, rendszerezett tartalom van bennük.
A robotokkal való hozzáférhetetlenség lehetséges okai többek közt:
- a tartalom adatbázisban van és csak keresésekkel érhető el;
- a hozzáféréshez regisztráció kell;
- a tartalom olyan fájlformátumban (pl. Flash) van, amiben a linkeket nem lehet követni vagy letölteni sem lehet;
- a tartalom dinamikusan változik (pl. Ajax programmal) a weboldalon a felhasználó interakcióitól függően;
- a robotok ki vannak zárva a szerverről a robots.txt fájl segítségével;
- az adott webhelyre egyetlen link sem mutat, így az URL címe ismerete nélkül megtalálhatatlan.
Hogy egy webhely a deep web része-e, az természetesen az adott crawler képességeitől is függ, vannak már olyan szoftver robotok, amelyek egy keresőűrlapot az adott nyelv szavaival véletlenszerűen kitöltve képesek találati weboldalakat generálni és ezeket leindexelni; illetve olyanok is, amelyek egyéb emberi interakciókat is szimulálnak (pl. görgetik a webkettes helyeken az oldalakat, hogy a dinamikusan felkerülő tartalom is megjelenjen rajtuk).