ArchiveSpark

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2017. július 25., 17:20-kor történt szerkesztése után volt. (Új oldal, tartalma: „Java/Scala szoftver WARC fájloknak az Apache Spark nevű (a Hadoop MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgo…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Java/Scala szoftver WARC fájloknak az Apache Spark nevű (a Hadoop MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgozásához, kielemzéséhez. A CDX indexfájlok alapján dönti el, hogy egy nagyobb WARC halmazból egyáltalán mit érdemes adatfeldolgozás céljából átadni a Spark rendszernek. (Egyik fejlesztője az Internet Archive programozója, aki az IA digitalizált könyvállományához is átdolgozta a szoftvert IABooksOnArchiveSpark néven.)