„WebSPHINX” változatai közötti eltérés
(Új oldal, tartalma: „= (Website-Specific Processors for HTML INformation eXtraction) = 1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív crawl…”) |
|||
1. sor: | 1. sor: | ||
= (Website-Specific Processors for HTML INformation eXtraction) = |
= (Website-Specific Processors for HTML INformation eXtraction) = |
||
− | 1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív [[crawler]] fejlesztési környezet, |
+ | 1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív [[crawler]] fejlesztési környezet, a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A ''Crawler Workbench'' egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A ''WebSPHINX class library'' segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a [[robots.txt]] szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt. |
---- |
---- |
A lap jelenlegi, 2021. július 14., 18:05-kori változata
(Website-Specific Processors for HTML INformation eXtraction)
1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív crawler fejlesztési környezet, a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A Crawler Workbench egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A WebSPHINX class library segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a robots.txt szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.