Apache Nutch

Innen: MIA

Eredetileg webes keresőgéphez szánt, de ma már inkább webarchiváláshoz használt, Java-ban írt, open source crawler, ami nagyon jól skálázható és bővíthető, és akár egy 100 darabos klaszteren is futtatható, nagy teljesítményű aratógépként. Az 1.x jelű verziója a Hadoop adatszerkezetre épül, míg a 2.x alá bármilyen NoSQL adattároló megoldás tehető. Összekapcsolható sokféle további eszközzel, pl. az Apache Tika metaadat- és szövegkiemelővel, vagy a Solr keresővel. 2014-ben a Common Crawl a Nutch-t kezdte el használni a tömeges aratásaihoz.