Web-Harvest

Innen: MIA

2006-tól nagyjából 2013-ig fejlesztett, Java nyelven írt scraping eszköz, melynek egyes komponensei csővezetékszerűen összefűzhetők és így különböző adatokat és tartalmakat lehet kinyerni weboldalakból. A HTTP modul letölti a megadott URL-ekről a fájlokat, az HTML-to-XML konvertáló "megtisztított" XHTML formátumot állít elő belőlük a fölösleges részek eltávolításával, az XPath ki tudja gyűjteni a HTML kódból például a képfájlokra mutató linkeket, majd ezek listáját átadja a HTTP modulnak letöltés céljából... Számos szerkesztési műveletet is el lehet végezni a segítségével HTML és XML formátumú szöveges fájlokon. Széles körben ismert technológiákra támaszkodik (XSLT, XQuery, reguláris kifejezések), szkriptnyelveket is támogat (BeanShell, Groovy, Javascript), az egyes komponensek konfigurálása pedig XML fájlok formájában történik.