Apache Nutch

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2017. július 25., 18:16-kor történt szerkesztése után volt. (Új oldal, tartalma: „Eredetileg webes keresőgéphez szánt, de ma már inkább webarchiváláshoz használt, Java-ban írt, open source crawler, ami nagyon jól skálázható és bőv…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Eredetileg webes keresőgéphez szánt, de ma már inkább webarchiváláshoz használt, Java-ban írt, open source crawler, ami nagyon jól skálázható és bővíthető, és akár egy 100 darabos klaszteren is futtatható, nagy teljesítményű aratógépként. Az 1.x jelű verziója a Hadoop adatszerkezetre épül, míg a 2.x alá bármilyen NoSQL adattároló megoldás tehető. Összekapcsolható sokféle további eszközzel, pl. az Apache Tika metaadat- és szövegkiemelővel, vagy a Solr keresővel. 2014-ben a Common Crawl a Nutch-t kezdte el használni a tömeges aratásaihoz.