„ETD to URLs” változatai közötti eltérés

Innen: MIA
 
4. sor: 4. sor:
   
 
* [https://github.com/unt-libraries/etd-to-urls/ Az ETD to URLs a GitHub-on]
 
* [https://github.com/unt-libraries/etd-to-urls/ Az ETD to URLs a GitHub-on]
* [https://www.youtube.com/watch?v=8P-ZaiJgoFA Crawling Toward Preservation of References in Digital Scholarship]
+
* [https://www.youtube.com/watch?v=8P-ZaiJgoFA Lauren Ko - Mark Phillips: Crawling Toward Preservation of References in Digital Scholarship]
   
 
[[Category:SZOFTVEREK]]
 
[[Category:SZOFTVEREK]]

A lap jelenlegi, 2024. augusztus 25., 10:05-kori változata

A University of North Texas Libraries munkatársai által írt scriptek, amelyekkel az elektronikus szakdolgozatok és disszertációk gyűjteményébe feltöltött PDF fájlokból kinyerhetők a linkek és archiválhatók a mögöttük levő webtartalmak, így biztosítva, hogy a hivatkozott források hosszú távon is megnézhetők maradjanak. A pdf_link_extractor.py nevű Python script által kigyűjtött URL-ek lementésére a Browsertrix crawlert használják, amit a felparaméterezett browsertrix-crawl.sh fájl indít el. Az archivált tartalom tárolása WACZ formátumban történik, melyet a dolgozat megőrzési csomagjához adnak hozzá.