metawarc

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2024. május 27., 15:37-kor történt szerkesztése után volt. (Új oldal, tartalma: „{{DISPLAYTITLE:metawarc}} Örmény programozó által Pythonban írt open source program, mellyel a parancssori paramétereknek megfelelő fájlok technikai metaadatai…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)


Örmény programozó által Pythonban írt open source program, mellyel a parancssori paramétereknek megfelelő fájlok technikai metaadatai gyűjthetők ki WARC konténerekből. A fájlok formátuma megadható MIME típusként, de fájlvégződésként is (pl.: .docx, .xlsx, .pptx., .pdf, .png, .jpg). A kigyűjtött adatok JSON vagy NDJSON (JSON lines) szöveges állományokba vagy közvetlenül SQLite adatbázisba menthetők. A metaadatokon kívül a nyers szövegek, vagy akár maguk az eredeti fájlok is kiszedhetők vele a WARC-okból.