„ArchiveSpark” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „Java/Scala szoftver WARC fájloknak az Apache Spark nevű (a Hadoop MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgo…”)
 
(Nincs különbség)

A lap jelenlegi, 2017. július 25., 17:20-kori változata

Java/Scala szoftver WARC fájloknak az Apache Spark nevű (a Hadoop MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgozásához, kielemzéséhez. A CDX indexfájlok alapján dönti el, hogy egy nagyobb WARC halmazból egyáltalán mit érdemes adatfeldolgozás céljából átadni a Spark rendszernek. (Egyik fejlesztője az Internet Archive programozója, aki az IA digitalizált könyvállományához is átdolgozta a szoftvert IABooksOnArchiveSpark néven.)