„ArchiveBot” változatai közötti eltérés

A lap 2021. július 5., 14:34-kori változata

Az ArchiveBot egy több elemből álló archiváló rendszer. Az alapja az Archive Team által futtatott wpull (korábban a wget) crawler, melyet a webirc.hackint.org IRC szerveren működő #archivebot csatornán beírt parancsokkal lehet vezérelni és max. néhány százezer URL-ből álló webhelyek lementésére használható. A keletkező WARC fájlok a crawlert futtató gépről előbb az Archive Team "Fortress of Solitude" nevű szerverére kerülnek, majd onnan szintén rsync-alapú szinkronizálással az Internet Archive-ba. A rendszer része még egy olyan komponens, ami az IRC kapcsolatot biztosítja és egy további backend modul, ami a futó, illetve befejezett jobokat tartja nyilván, valamint egy webes dashboard és viewer felület, melyeken megnézhetők az élő és a lezárt folyamatok. Crawlert az Archive Team aktívabb tagjai futtathatnak a saját gépükön (egy asztali teljesítményű PC-n általában 2-3 job megy egyszerre). Ezeket az önkéntesek által működtetett archiváló komponenseket pipeline-oknak hívják, melyek a backend-del kommunikálnak. Az egész rendszer is telepíthető saját szerverre, mert egyetlen csomagként is letölthető grab-site néven. Az ArchiveBot robotja feldolgozza a robots.txt tartalmát, de csak további URL-ek összegyűjtésére használja az esetleg benne levő sitemap linket.

---

A lap 2021. július 5., 14:34-kori változata (lapforrás) Admin (vitalap \| szerkesztései) ← Régebbi szerkesztés		A lap 2021. július 5., 14:34-kori változata (lapforrás) Admin (vitalap \| szerkesztései) Újabb szerkesztés →
1. sor:		1. sor:
−	Az ArchiveBot egy több elemből álló archiváló rendszer. Az alapja az [[Archive Team]] által futtatott [[wpull]] (korábban a [[wget]]) [[crawler]], melyet a webirc.hackint.org IRC szerveren működő #archivebot csatornán beírt parancsokkal lehet vezérelni és max. néhány százezer URL-ből álló webhelyek lementésére használható. A keletkező WARC fájlok a crawlert futtató gépről előbb az Archive Team "Fortress of Solitude" nevű szerverére kerülnek, majd onnan szintén rsync-alapú szinkronizálással az [[Internet Archive]]-ba. A rendszer része még egy olyan komponens, ami az IRC kapcsolatot biztosítja és egy további backend modul, ami a futó, illetve befejezett jobokat tartja nyilván, valamint egy webes dashboard és viewer felület, melyeken megnézhetők az élő és a lezárt folyamatok. Crawlert az Archive Team aktívabb tagjai futtathatnak a saját gépükön (egy asztali teljesítményű PC-n általában 2-3 job megy egyszerre). Ezeket az önkéntesek által működtetett archiváló komponenseket pipeline-~~nak~~ hívják, melyek a backend-del kommunikálnak. Az egész rendszer is telepíthető saját szerverre, mert egyetlen csomagként is letölthető [[grab-site]] néven. Az ArchiveBot robotja feldolgozza a [[robots.txt]] tartalmát, de csak további URL-ek összegyűjtésére használja az esetleg benne levő sitemap linket.	+	Az ArchiveBot egy több elemből álló archiváló rendszer. Az alapja az [[Archive Team]] által futtatott [[wpull]] (korábban a [[wget]]) [[crawler]], melyet a webirc.hackint.org IRC szerveren működő #archivebot csatornán beírt parancsokkal lehet vezérelni és max. néhány százezer URL-ből álló webhelyek lementésére használható. A keletkező WARC fájlok a crawlert futtató gépről előbb az Archive Team "Fortress of Solitude" nevű szerverére kerülnek, majd onnan szintén rsync-alapú szinkronizálással az [[Internet Archive]]-ba. A rendszer része még egy olyan komponens, ami az IRC kapcsolatot biztosítja és egy további backend modul, ami a futó, illetve befejezett jobokat tartja nyilván, valamint egy webes dashboard és viewer felület, melyeken megnézhetők az élő és a lezárt folyamatok. Crawlert az Archive Team aktívabb tagjai futtathatnak a saját gépükön (egy asztali teljesítményű PC-n általában 2-3 job megy egyszerre). Ezeket az önkéntesek által működtetett archiváló komponenseket pipeline-oknak hívják, melyek a backend-del kommunikálnak. Az egész rendszer is telepíthető saját szerverre, mert egyetlen csomagként is letölthető [[grab-site]] néven. Az ArchiveBot robotja feldolgozza a [[robots.txt]] tartalmát, de csak további URL-ek összegyűjtésére használja az esetleg benne levő sitemap linket.

	---		---

„ArchiveBot” változatai közötti eltérés

A lap 2021. július 5., 14:34-kori változata

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök