WARC Extractor
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. július 4., 13:12-kor történt szerkesztése után volt. (Új oldal, tartalma: „Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez.…”)
Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez. Paraméterként a kiexportálandó szöveg nyelve is megadható.