warc-mapreduce

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2020. október 12., 12:09-kor történt szerkesztése után volt.

Java-ban írt program WARC és WET fájlok feldolgozásához a Hadoop keretrendszer MapReduce nevű API-jával. Így terabájtos méretű adathalmazok dolgozhatók fel párhuzamos módon egy több ezer node-ból álló klaszteren is hibamentesen, úgy, hogy kisebb, független csomagokra osztja fel őket a rendszer.