WebSPHINX

Innen: MIA

(Website-Specific Processors for HTML INformation eXtraction)

1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív crawler fejlesztési környezet, a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A Crawler Workbench egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A WebSPHINX class library segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a robots.txt szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.