Deep web
Az internetes keresők (és egyben a webarchívumok) crawler-jei számára "rejtett", nem bejárható weboldalak halmaza. Egy 2001-es becslés szerint a webnek ez a része kb. 400-550-szerese a robotokkal elérhető felszíni webnek. (Ez az arány azóta valószínűleg még nagyobb lett a crawler-ek fejlődése ellenére.) A deep webet alkotó szolgáltatások jelentős része az emberek számára viszont elérhető (legfeljebb regisztrációhoz vagy előfizetéshez kötött) és sokszor értékesebb, rendszerezett tartalom van bennük.
A robotokkal való hozzáférhetetlenség lehetséges okai többek közt:
- a tartalom adatbázisban van és csak keresésekkel érhető el;
- a hozzáféréshez regisztráció kell;
- a tartalom olyan fájlformátumban (pl. Flash) van, amiben a linkeket nem lehet követni vagy letölteni sem lehet;
- a tartalom dinamikusan változik (pl. Ajax programmal) a weboldalon a felhasználó interakcióitól függően;
- a robotok ki vannak zárva a szerverről a robots.txt fájl segítségével;
- az adott webhelyre egyetlen link sem mutat, így az URL címe ismerete nélkül megtalálhatatlan.
Hogy egy webhely a deep web része-e, az természetesen az adott crawler képességeitől is függ, vannak már olyan szoftver robotok, amelyek egy keresőűrlapot az adott nyelv szavaival véletlenszerűen kitöltve képesek találati weboldalakat generálni és ezeket leindexelni; illetve olyanok is, amelyek egyéb emberi interakciókat is szimulálnak (pl. görgetik a webkettes helyeken az oldalakat, hogy a dinamikusan felkerülő tartalom is megjelenjen rajtuk).