Ajánlások robot- és archívumbarát webhelyekhez

Crawler-friendly website

Olyan kialakítású webhely, amelynek releváns tartalma könnyen és teljesen felderíthető robotokkal, az érdektelen (pl. naplófájlok, segédállományok) vagy lementhetetlen (pl. adatbázisok, webáruházak) részei viszont el vannak rejtve előlük. Például ilyen megoldásokkal tehető bejárhatóbbá egy webszerver tartalma:

  • honlaptérkép (lehetőleg XML-ben), amely minden lényeges aloldalra elvezeti a robotot
  • a tartalom értékes része nincs túl mélyen a kezdőlapról indulva és linkeken keresztül is elérhető, nem csak egy keresőűrlapon át
  • szabályos HTML linkek a Javascript-, Flash-, Java-alapú stb. megoldások helyett/mellett, amelyeket a robot is követni tud
  • az azonos tartalomra mutató sokféle belső link, vagy a végtelen körben egymásra hivatkozó linkek kerülése vagy kanonizálása a robotok számára
  • frame-ek, egérkattintásra aktiválódó layerek, dinamikusan generálódó tartalmak elkerülése, vagy legalább statikus és önálló URL címekkel rendelkező alternatívák generálása ezekből a robotok számára
  • jól konfigurált robots.txt, amely beengedi a robotokat, de csak a tényleges tartalmat szolgáltató, ill. számukra optimalizált részekre

A crawler-barát site-ok kialakítására vonatkozó szabályok ill. ajánlások elsősorban SEO-szempontból íródtak, vagyis a keresőgépek robotjai számára való optimalizálásra vonatkoznak. Ezek nagyrészt az archiválási célból indított robotok esetében is hasznosak, de az archiválás esetében más szempontok is vannak.

 


Archive-friendly website

Olyan webhely, amely nemcsak crawler-friendly, vagyis robotokkal könnyen bejárható, hanem jó minőségben archiválható is: a lementett változat tartalmában, megjelenésében és funkcionalitásában kellően hű mása az eredetinek. Többek között ilyen szempontoknak érdemes megfelelni:

  • logikus site-struktúra, amelynek a felépítése az URL címekben is tükröződik, mert így könnyebb kiválasztani az archiválásra érdemes részeket és utólag ellenőrizni az eredményt
  • valid HTML és CSS kód, ami lehetővé teszi a helyes megjelenítést a szabványokat követő böngészőkben a jövőben is
  • ékezetek és egyes speciális karakterek kerülése az alkönyvtárak és a fájlok neveiben
  • lehetőleg nyílt fájlformátumok használata, melyek hosszú távon is megjeleníthetők maradnak
  • nincs benne olyan speciális formátumú tartalom, amihez külön megjelenítőt/böngésző-kiegészítőt kell telepíteni
  • a hang és a videó tartalom nem sugárzott (stream) módon van beágyazva, hanem letölthető fájlok formájában (is)
  • a robots.txt fájlban nincs letiltva a külalakot szabályozó (pl. .css) fájlok letöltése
  • nem tartalmaz olyan szerver oldalon futó scripteket, programokat, vagy adatbázist, amelyek nélkül a website használhatatlan
  • a webszerver nem használ olyan session vagy persistent típusú cookie-kat, amelyek alapvetően befolyásolják a megjelenő tartalmat (pl. a felhasználói felület nyelvét)
  • részletes beágyazott metaadatok vannak a weboldalak fejlécében és az egyéb dokumentumokban (pl. képek, PDF fájlok), melyek megkönnyítik a begyűjtött digitális objektumok beazonosítását és automatikus metaadatolását
  • a készítés vagy az utolsó módosítás dátumának feltüntetése a weboldalakon és a dokumentumokban, hogy az archivált változat használója meg tudja állapítani, mikor készültek (ne csak azt lássa, hogy mikor lettek archiválva)
  • a webhely jogi közleményében kitér az archiválásra is (pl. “archiválható, de csak fél év után szolgáltatható és csak könyvtáron belül”), vagy egy CC licenccel szabályozza a felhasználást az archivált példány esetében is.

Az archiválhatósági jellemzők egy része könnyen ellenőrizhető egy website esetében olyan szolgáltatásokkal, mint például az Archive Ready.

 


Ajánlott információforrások: