„WARCHTML” változatai közötti eltérés

Innen: MIA
1. sor: 1. sor:
Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására [[WARC]] fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat kell megadni, majd ezekből kigyűjti előbb a HTML fájlokat, végül pedig JSON formátumú adatstruktúrát hoz létre belőlük, amiben a ''p'', a ''h1''-''h2''-''h3'' ..., a ''title'' és a headerben levő egyéb címkékhez tartozó szövegek vannak. A '-getdump true' opcióval a nem HTML formátumú fájlokat is kiteszi egy mappába.
+
Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására [[WARC]] fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat kell megadni, majd ezekből kigyűjti előbb a HTML fájlokat, végül pedig JSON formátumú adatstruktúrát hoz létre belőlük, amiben a ''p'', a ''h1''-''h2''-''h3'' ..., a ''title'' és a fejlécben levő egyéb címkékhez tartozó szövegek vannak. A '-getdump true' opcióval a nem HTML formátumú fájlokat is kiteszi egy mappába.
   
 
----
 
----

A lap 2024. május 12., 17:19-kori változata

Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására WARC fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat kell megadni, majd ezekből kigyűjti előbb a HTML fájlokat, végül pedig JSON formátumú adatstruktúrát hoz létre belőlük, amiben a p, a h1-h2-h3 ..., a title és a fejlécben levő egyéb címkékhez tartozó szövegek vannak. A '-getdump true' opcióval a nem HTML formátumú fájlokat is kiteszi egy mappába.