„WebSPHINX” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „= (Website-Specific Processors for HTML INformation eXtraction) = 1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív crawl…”)
 
 
1. sor: 1. sor:
 
= (Website-Specific Processors for HTML INformation eXtraction) =
 
= (Website-Specific Processors for HTML INformation eXtraction) =
   
1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív [[crawler]] fejlesztési környezet, ami a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A ''Crawler Workbench'' egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A ''WebSPHINX class library'' segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a [[robots.txt]] szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.
+
1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív [[crawler]] fejlesztési környezet, a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A ''Crawler Workbench'' egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A ''WebSPHINX class library'' segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a [[robots.txt]] szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.
   
 
----
 
----

A lap jelenlegi, 2021. július 14., 19:05-kori változata

(Website-Specific Processors for HTML INformation eXtraction)

1998-2002 között a Carnegie Mellon University-n fejlesztett Java könyvtár és interaktív crawler fejlesztési környezet, a Compaq System Research Center 1997-es SPHINX nevű rendszerének mintájára készült, két részből álló open source szoftver. A Crawler Workbench egy grafikus felület, melyen keresztül konfigurálni és vezérelni lehet egy web crawlert. A letöltött weboldalak összefűzhetők (pl. nyomtatáshoz), szövegek és képek nyerhetők ki belőlük mintázat alapján, továbbá ábrázolhatók a köztük levő kapcsolatok gráf formájában. A WebSPHINX class library segítségével pedig saját crawler-eket lehet írni Java-ban. Támogatja a robots.txt szabályokat, a több szálon való letöltést, a reguláris kifejezések használatát, a linkek átnevezését mentéskor. Magas memória igénye miatt csak pár száz vagy ezer oldalból álló webhelyek letöltésére javasolt.