„WARCHTML” változatai közötti eltérés
(Egy közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva) | |||
1. sor: | 1. sor: | ||
− | Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására [[WARC]] fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat kell megadni, majd ezekből kigyűjti előbb a HTML fájlokat, végül pedig JSON formátumú adatstruktúrát hoz létre belőlük, amiben a ''p'', a ''h1'' |
+ | Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására [[WARC]] fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat kell megadni, majd ezekből kigyűjti előbb a HTML fájlokat, végül pedig JSON formátumú adatstruktúrát hoz létre belőlük, amiben a ''p'', a ''h1'' ''h2'' ..., a ''title'' és a fejlécben levő egyéb címkékhez tartozó szövegek vannak. A '-getdump true' opcióval a nem HTML formátumú fájlokat is kiteszi egy mappába. |
---- |
---- |
A lap jelenlegi, 2024. május 12., 18:33-kori változata
Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására WARC fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat kell megadni, majd ezekből kigyűjti előbb a HTML fájlokat, végül pedig JSON formátumú adatstruktúrát hoz létre belőlük, amiben a p, a h1 h2 ..., a title és a fejlécben levő egyéb címkékhez tartozó szövegek vannak. A '-getdump true' opcióval a nem HTML formátumú fájlokat is kiteszi egy mappába.