WARCHTML

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2024. május 12., 19:33-kor történt szerkesztése után volt.
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Pythonban írt script gépi tanuláshoz használható adatkészlet előállítására WARC fájlokból. Bemenő paraméternek a WARC-okat tartalmazó könyvtárat kell megadni, majd ezekből kigyűjti előbb a HTML fájlokat, végül pedig JSON formátumú adatstruktúrát hoz létre belőlük, amiben a p, a h1 h2 ..., a title és a fejlécben levő egyéb címkékhez tartozó szövegek vannak. A '-getdump true' opcióval a nem HTML formátumú fájlokat is kiteszi egy mappába.