„SURT” változatai közötti eltérés

Innen: MIA
7. sor: 7. sor:
 
http://(edu,unt,library,www,)/collections/
 
http://(edu,unt,library,www,)/collections/
 
</pre>
 
</pre>
  +
  +
  +
----
  +
* [http://crawler.archive.org/articles/user_manual/glossary.html#surt Heritrix User Manual - Glossary : SURT]
   
 
[[Category:FOGALMAK]]
 
[[Category:FOGALMAK]]

A lap 2018. augusztus 30., 18:23-kori változata

(Sort-friendly URI Reordering Transform)

Egy URL cím (illetve általában mindenféle URI azonosító) olyan egységes alakra konvertált változata, amely alkalmasabb a crawler programok számára, mint az eredeti írásmód, mert így abc sorrendben egymás után kerülnek az azonos domainhoz tartozó címek, ill. egyértelműen összehasonlíthatóvá válnak különböző címlisták. A konverzió során a címeket kisbetűsítik, megfordítják a domain névben a szintek sorrendjét és zárójelbe teszik, a "https"-t "http"-re cserélik, és van, amikor le is vágják a végét (az utolsó / jelnél), mert így egy olyan SURT prefix-et kapnak, ami minden bejárandó URL cím elé oda tehető.

Pl. a https://www.library.unt.edu/collections/digital­ URL cím SURT prefix formában: 
      http://(edu,unt,library,www,)/collections/