„SURT” változatai közötti eltérés
10. sor: | 10. sor: | ||
---- |
---- |
||
* [http://crawler.archive.org/articles/user_manual/glossary.html#surt Heritrix User Manual - Glossary : SURT] |
* [http://crawler.archive.org/articles/user_manual/glossary.html#surt Heritrix User Manual - Glossary : SURT] |
||
+ | * [https://github.com/iipc/urlcanon/blob/master/ssurt.rst SSURT - Superior SURT. Sensible SURT. Smug SURT] |
||
[[Category:FOGALMAK]] |
[[Category:FOGALMAK]] |
A lap jelenlegi, 2019. július 15., 17:21-kori változata
(Sort-friendly URI Reordering Transform)
Egy URL cím (illetve általában mindenféle URI azonosító) olyan egységes alakra konvertált változata, amely alkalmasabb a crawler programok számára, mint az eredeti írásmód, mert így abc sorrendben egymás után kerülnek az azonos domainhoz tartozó címek, ill. egyértelműen összehasonlíthatóvá válnak különböző címlisták. A konverzió során a címeket kisbetűsítik, megfordítják a domain névben a szintek sorrendjét és zárójelbe teszik, a "https"-t "http"-re cserélik, és van, amikor le is vágják a végét (az utolsó / jelnél), mert így egy olyan SURT prefix-et kapnak, ami minden bejárandó URL cím elé oda tehető.
Pl. a https://www.library.unt.edu/collections/digital URL cím SURT prefix formában: http://(edu,unt,library,www,)/collections/