„Web-Harvest” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „2006-tól nagyjából 2013-ig fejlesztett, Java nyelven írt scraping eszköz, melynek egyes komponensei csővezetékszerűen összefűzhetők és így…”)
 
 
5. sor: 5. sor:
 
* [http://web-harvest.sourceforge.net/ A Web-Harvest weboldala]
 
* [http://web-harvest.sourceforge.net/ A Web-Harvest weboldala]
 
* [https://sourceforge.net/projects/web-harvest/ A Web-Harvest a SourceForge-on]
 
* [https://sourceforge.net/projects/web-harvest/ A Web-Harvest a SourceForge-on]
* [Web Crawling with Web Harvest and Scala http://robust-project.eu/news/web-crawling-with-web-harvest-and-scala/]
+
* [http://robust-project.eu/news/web-crawling-with-web-harvest-and-scala/ Web Crawling with Web Harvest and Scala]
   
 
[[Category:SZOFTVEREK]]
 
[[Category:SZOFTVEREK]]

A lap jelenlegi, 2021. június 18., 20:23-kori változata

2006-tól nagyjából 2013-ig fejlesztett, Java nyelven írt scraping eszköz, melynek egyes komponensei csővezetékszerűen összefűzhetők és így különböző adatokat és tartalmakat lehet kinyerni weboldalakból. A HTTP modul letölti a megadott URL-ekről a fájlokat, az HTML-to-XML konvertáló "megtisztított" XHTML formátumot állít elő belőlük a fölösleges részek eltávolításával, az XPath ki tudja gyűjteni a HTML kódból például a képfájlokra mutató linkeket, majd ezek listáját átadja a HTTP modulnak letöltés céljából... Számos szerkesztési műveletet is el lehet végezni a segítségével HTML és XML formátumú szöveges fájlokon. Széles körben ismert technológiákra támaszkodik (XSLT, XQuery, reguláris kifejezések), szkriptnyelveket is támogat (BeanShell, Groovy, Javascript), az egyes komponensek konfigurálása pedig XML fájlok formájában történik.