„Warc-metadata-sidecar” változatai közötti eltérés

Innen: MIA
 
4. sor: 4. sor:
   
 
* [https://github.com/unt-libraries/warc-metadata-sidecar A warc-metadata-sidecar a GitHub-on]
 
* [https://github.com/unt-libraries/warc-metadata-sidecar A warc-metadata-sidecar a GitHub-on]
* [https://www.ideals.illinois.edu/items/128295 Mark E. Phillips - Kristy K. Phillips - Sawood Alam: Content-Based Characterization of the End of Term Web Archive]
+
* [https://www.ideals.illinois.edu/items/128295 Mark E. Phillips - Kristy K. Phillips - Sawood Alam: Content-Based Characterization of the End of Term Web Archive]
   
 
[[Category:SZOFTVEREK]]
 
[[Category:SZOFTVEREK]]

A lap jelenlegi, 2024. május 12., 19:34-kori változata

A University of North Texas Libraries munkatársai által írt Python könyvtár, amivel WARC vagy ARC konténerekből kigyűjthetők bizonyos típusú metaadatok egy [eredeti-fájlnév].warc.meta.gz nevű, WARC Metadata Sidecar formátumú kísérőfájlba. Ez azután akár CDXJ formátumra is konvertálható és összefésülhető az eredeti WARC-hoz tartozó CDXJ indexszel.