„SURT” változatai közötti eltérés
(2 közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva) | |||
7. sor: | 7. sor: | ||
http://(edu,unt,library,www,)/collections/ |
http://(edu,unt,library,www,)/collections/ |
||
</pre> |
</pre> |
||
+ | |||
+ | ---- |
||
+ | * [http://crawler.archive.org/articles/user_manual/glossary.html#surt Heritrix User Manual - Glossary : SURT] |
||
+ | * [https://github.com/iipc/urlcanon/blob/master/ssurt.rst SSURT - Superior SURT. Sensible SURT. Smug SURT] |
||
[[Category:FOGALMAK]] |
[[Category:FOGALMAK]] |
A lap jelenlegi, 2019. július 15., 17:21-kori változata
(Sort-friendly URI Reordering Transform)
Egy URL cím (illetve általában mindenféle URI azonosító) olyan egységes alakra konvertált változata, amely alkalmasabb a crawler programok számára, mint az eredeti írásmód, mert így abc sorrendben egymás után kerülnek az azonos domainhoz tartozó címek, ill. egyértelműen összehasonlíthatóvá válnak különböző címlisták. A konverzió során a címeket kisbetűsítik, megfordítják a domain névben a szintek sorrendjét és zárójelbe teszik, a "https"-t "http"-re cserélik, és van, amikor le is vágják a végét (az utolsó / jelnél), mert így egy olyan SURT prefix-et kapnak, ami minden bejárandó URL cím elé oda tehető.
Pl. a https://www.library.unt.edu/collections/digital URL cím SURT prefix formában: http://(edu,unt,library,www,)/collections/