warc-mapreduce

Innen: MIA

Java-ban írt program WARC és WET fájlok feldolgozásához a Hadoop keretrendszer MapReduce nevű API-jával. Így terabájtos méretű adathalmazok dolgozhatók fel párhuzamos módon egy több ezer node-ból álló klaszteren is hibamentesen, úgy, hogy kisebb, független csomagokra osztja fel őket a rendszer.