WARC Extractor

Innen: MIA

Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez. Paraméterként a kiexportálandó szöveg nyelve is megadható.