Sparkler

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. július 24., 20:01-kor történt szerkesztése után volt. (Új oldal, tartalma: „A University of Southern California-n működő Information Retrieval and Data Science Group által 2017 óta fejlesztett, az Apache Nutch-hoz hasonló, de Apache S…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

A University of Southern California-n működő Information Retrieval and Data Science Group által 2017 óta fejlesztett, az Apache Nutch-hoz hasonló, de Apache Spark-on futó crawler. A Spark mellett egyéb Apache technológiákat is felhasznál: Kafka, Lucene/Solr, [[Tika]|Apache Tika] és pf4j. Bővíthető, nagyon jól skálázható, hibatűrő és nagy teljesítményű eszköz. A weboldalakban levő Javascripteket végrehajtja, megőrzi a session azonosítókat és a cookie-kat. Van hozzá egy grafikus dashboard is, amin valós időben követhető a robot működése.