ArchiveSpark

Innen: MIA

Java/Scala szoftver WARC fájloknak az Apache Spark nevű (a Hadoop MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgozásához, kielemzéséhez. A CDX indexfájlok alapján dönti el, hogy egy nagyobb WARC halmazból egyáltalán mit érdemes adatfeldolgozás céljából átadni a Spark rendszernek. (Egyik fejlesztője az Internet Archive programozója, aki az IA digitalizált könyvállományához is átdolgozta a szoftvert IABooksOnArchiveSpark néven.)