„WARC Extractor” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez.…”)
 
(Nincs különbség)

A lap jelenlegi, 2021. július 4., 13:12-kori változata

Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez. Paraméterként a kiexportálandó szöveg nyelve is megadható.