Deep web

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2017. július 23., 15:25-kor történt szerkesztése után volt.
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

(hidden web, invisible web)

Az internetes keresők (és egyben a webarchívumok) crawler-jei számára "rejtett", nem bejárható weboldalak halmaza. Egy 2001-es becslés szerint a webnek ez a része kb. 400-550-szerese a robotokkal elérhető felszíni webnek. (Ez az arány azóta valószínűleg még nagyobb lett a crawler-ek fejlődése ellenére.) A deep webet alkotó szolgáltatások jelentős része az emberek számára viszont elérhető (legfeljebb regisztrációhoz vagy előfizetéshez kötött) és sokszor értékesebb, rendszerezett tartalom van bennük.

A robotokkal való hozzáférhetetlenség lehetséges okai többek közt:

  • a tartalom adatbázisban van és csak keresésekkel érhető el;
  • a hozzáféréshez regisztráció kell;
  • a tartalom olyan fájlformátumban (pl. Flash) van, amiben a linkeket nem lehet követni vagy letölteni sem lehet;
  • a tartalom dinamikusan változik (pl. Ajax programmal) a weboldalon a felhasználó interakcióitól függően;
  • a robotok ki vannak zárva a szerverről a robots.txt fájl segítségével;
  • az adott webhelyre egyetlen link sem mutat, így az URL címe ismerete nélkül megtalálhatatlan.

Hogy egy webhely a deep web része-e, az természetesen az adott crawler képességeitől is függ, vannak már olyan szoftver robotok, amelyek egy keresőűrlapot az adott nyelv szavaival véletlenszerűen kitöltve képesek találati weboldalakat generálni és ezeket leindexelni; illetve olyanok is, amelyek egyéb emberi interakciókat is szimulálnak (pl. görgetik a webkettes helyeken az oldalakat, hogy a dinamikusan felkerülő tartalom is megjelenjen rajtuk).