WebSPHINX

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. július 14., 19:04-kor történt szerkesztése után volt. (Új oldal, tartalma: „= (Website-Specific Processors for HTML INformation eXtraction) = 1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív crawl…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

(Website-Specific Processors for HTML INformation eXtraction)

1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív crawler fejlesztési környezet, ami a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A Crawler Workbench egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A WebSPHINX class library segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a robots.txt szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.