A lap jelenlegi, 2021. július 14., 18:05-kori változata

(Website-Specific Processors for HTML INformation eXtraction)

1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív crawler fejlesztési környezet, a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A Crawler Workbench egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A WebSPHINX class library segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a robots.txt szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.

A WebSPHINX weboldala

@@ 1. sor: / 1. sor: @@
 = (Website-Specific Processors for HTML INformation eXtraction) =
--2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív [[crawler]] fejlesztési környezet, ami a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A ''Crawler Workbench'' egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A ''WebSPHINX class library'' segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a [[robots.txt]] szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.
+-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív [[crawler]] fejlesztési környezet, a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A ''Crawler Workbench'' egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A ''WebSPHINX class library'' segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a [[robots.txt]] szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.
 ----

„WebSPHINX” változatai közötti eltérés

A lap jelenlegi, 2021. július 14., 18:05-kori változata

(Website-Specific Processors for HTML INformation eXtraction)

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök