„Sparkler” változatai közötti eltérés
(Új oldal, tartalma: „A University of Southern California-n működő Information Retrieval and Data Science Group által 2017 óta fejlesztett, az Apache Nutch-hoz hasonló, de Apache S…”) |
(Nincs különbség)
|
A lap 2021. július 24., 19:01-kori változata
A University of Southern California-n működő Information Retrieval and Data Science Group által 2017 óta fejlesztett, az Apache Nutch-hoz hasonló, de Apache Spark-on futó crawler. A Spark mellett egyéb Apache technológiákat is felhasznál: Kafka, Lucene/Solr, [[Tika]|Apache Tika] és pf4j. Bővíthető, nagyon jól skálázható, hibatűrő és nagy teljesítményű eszköz. A weboldalakban levő Javascripteket végrehajtja, megőrzi a session azonosítókat és a cookie-kat. Van hozzá egy grafikus dashboard is, amin valós időben követhető a robot működése.