„Apache Nutch” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „Eredetileg webes keresőgéphez szánt, de ma már inkább webarchiváláshoz használt, Java-ban írt, open source crawler, ami nagyon jól skálázható és bőv…”)
 
(Nincs különbség)

A lap jelenlegi, 2017. július 25., 17:16-kori változata

Eredetileg webes keresőgéphez szánt, de ma már inkább webarchiváláshoz használt, Java-ban írt, open source crawler, ami nagyon jól skálázható és bővíthető, és akár egy 100 darabos klaszteren is futtatható, nagy teljesítményű aratógépként. Az 1.x jelű verziója a Hadoop adatszerkezetre épül, míg a 2.x alá bármilyen NoSQL adattároló megoldás tehető. Összekapcsolható sokféle további eszközzel, pl. az Apache Tika metaadat- és szövegkiemelővel, vagy a Solr keresővel. 2014-ben a Common Crawl a Nutch-t kezdte el használni a tömeges aratásaihoz.