„Warc-metadata-sidecar” változatai közötti eltérés
4. sor: | 4. sor: | ||
* [https://github.com/unt-libraries/warc-metadata-sidecar A warc-metadata-sidecar a GitHub-on] |
* [https://github.com/unt-libraries/warc-metadata-sidecar A warc-metadata-sidecar a GitHub-on] |
||
− | * [https://www.ideals.illinois.edu/items/128295 Mark E. Phillips - Kristy K. Phillips - |
+ | * [https://www.ideals.illinois.edu/items/128295 Mark E. Phillips - Kristy K. Phillips - Sawood Alam: Content-Based Characterization of the End of Term Web Archive] |
[[Category:SZOFTVEREK]] |
[[Category:SZOFTVEREK]] |
A lap jelenlegi, 2024. május 12., 18:34-kori változata
A University of North Texas Libraries munkatársai által írt Python könyvtár, amivel WARC vagy ARC konténerekből kigyűjthetők bizonyos típusú metaadatok egy [eredeti-fájlnév].warc.meta.gz nevű, WARC Metadata Sidecar formátumú kísérőfájlba. Ez azután akár CDXJ formátumra is konvertálható és összefésülhető az eredeti WARC-hoz tartozó CDXJ indexszel.