Web-Harvest

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. június 18., 20:23-kor történt szerkesztése után volt.
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

2006-tól nagyjából 2013-ig fejlesztett, Java nyelven írt scraping eszköz, melynek egyes komponensei csővezetékszerűen összefűzhetők és így különböző adatokat és tartalmakat lehet kinyerni weboldalakból. A HTTP modul letölti a megadott URL-ekről a fájlokat, az HTML-to-XML konvertáló "megtisztított" XHTML formátumot állít elő belőlük a fölösleges részek eltávolításával, az XPath ki tudja gyűjteni a HTML kódból például a képfájlokra mutató linkeket, majd ezek listáját átadja a HTTP modulnak letöltés céljából... Számos szerkesztési műveletet is el lehet végezni a segítségével HTML és XML formátumú szöveges fájlokon. Széles körben ismert technológiákra támaszkodik (XSLT, XQuery, reguláris kifejezések), szkriptnyelveket is támogat (BeanShell, Groovy, Javascript), az egyes komponensek konfigurálása pedig XML fájlok formájában történik.