Sparkler

Innen: MIA

A University of Southern California-n működő Information Retrieval and Data Science Group által 2017 óta fejlesztett, az Apache Nutch-hoz hasonló, de Apache Spark-on futó crawler. A Spark mellett egyéb Apache technológiákat is felhasznál: Kafka, Lucene/Solr, Tika és pf4j. Bővíthető, nagyon jól skálázható, hibatűrő és nagy teljesítményű eszköz. A weboldalakban levő Javascripteket végrehajtja, megőrzi a session azonosítókat és a cookie-kat. Van hozzá egy grafikus dashboard is, amin valós időben követhető a robot működése.