WARC Extractor

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. július 4., 13:12-kor történt szerkesztése után volt. (Új oldal, tartalma: „Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez.…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Java-ban írt program WARC formátumban tárolt HTML fájlokból való szövegkinyerésre, például a Common Crawl archívumából nyelvészeti elemzésekhez. Paraméterként a kiexportálandó szöveg nyelve is megadható.