„WARC Extractor” változatai közötti eltérés
(Új oldal, tartalma: „Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez.…”) |
(Nincs különbség)
|
A lap jelenlegi, 2021. július 4., 13:12-kori változata
Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez. Paraméterként a kiexportálandó szöveg nyelve is megadható.