„WARCHTML” változatai közötti eltérés
(Új oldal, tartalma: „Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására WARC fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat k…”) |
(Nincs különbség)
|
A lap 2024. május 12., 16:18-kori változata
Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására WARC fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat kell megadni, majd ezekből kigyűjti előbb a HTML fájlokat, végül pedig JSON formátumú adatstruktúrát hoz létre belőlük, amiben a p, a h1-h2-..., a title és a headerben levő egyéb címkékhez tartozó szövegek vannak. A '-getdump true' opcióval a nem HTML formátumú fájlokat is kiteszi egy mappába.