„Deep web” változatai közötti eltérés
(Új oldal, tartalma: „= (hidden web, invisible web) = Az internetes keresők (és egyben a webarchívumok) crawler-jei számára "rejtett", nem bejárható weboldalak halmaza. Egy 2001-…”) |
(Nincs különbség)
|
A lap 2017. július 23., 14:43-kori változata
Az internetes keresők (és egyben a webarchívumok) crawler-jei számára "rejtett", nem bejárható weboldalak halmaza. Egy 2001-es becslés szerint a webnek ez a része kb. 400-550-szerese a robotokkal elérhető felszíni webnek. (Ez az arány azóta valószínűleg még nagyobb lett a crawler-ek fejlődése ellenére.) A deep webet alkotó szolgáltatások jelentős része az emberek számára viszont elérhető (legfeljebb regisztrációhoz vagy előfizetéshez kötött) és sokszor értékesebb, rendszerezett tartalom van bennük.
A robotokkal való hozzáférhetetlenség lehetséges okai többek közt:
- a tartalom adatbázisban van és csak keresésekkel érhető el;
- a hozzáféréshez regisztráció kell;
- a tartalom olyan fájlformátumban (pl. Flash) van, amiben a linkeket nem lehet követni vagy letölteni sem lehet;
- a tartalom dinamikusan változik (pl. Ajax programmal) a weboldalon a felhasználó interakcióitól függően;
- a robotok ki vannak zárva a szerverről a robots.txt fájl segítségével;
- az adott webhelyre egyetlen link sem mutat, így az URL címe ismerete nélkül megtalálhatatlan.
Hogy egy webhely a deep web része-e, az természetesen az adott crawler képességeitől is függ, vannak már olyan szoftver robotok, amelyek egy keresőűrlapot az adott nyelv szavaival véletlenszerűen kitöltve képesek találati weboldalakat generálni és ezeket leindexelni; illetve olyanok is, amelyek egyéb emberi interakciókat is szimulálnak (pl. görgetik a webkettes helyeken az oldalakat, hogy a dinamikusan felkerülő tartalom is megjelenjen rajtuk).