„Warc-metadata-sidecar” változatai közötti eltérés
(Nincs különbség)
|
A lap 2024. május 12., 15:17-kori változata
A University of North Texas Libraries munkatársai által írt Python könyvtár, amivel WARC vagy ARC konténerekből kigyűjthetők bizonyos típusú metaadatok egy [eredeti-fájlnév].warc.meta.gz nevű, WARC Metadata Sidecar formátumú kísérőfájlba. Ez azután akár CDXJ formátumra is konvertálható és összefésülhető az eredeti WARC-hoz tartozó CDXJ indexxel.