ArchiveBot

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. július 5., 13:27-kor történt szerkesztése után volt. (Új oldal, tartalma: „Az ArchiveBot egy több komponensből álló archiváló rendszer. Az alapja az Archive Team által futtatott wpull (korábban a wget) crawler, melyet a…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Az ArchiveBot egy több komponensből álló archiváló rendszer. Az alapja az Archive Team által futtatott wpull (korábban a wget) crawler, melyet a webirc.hackint.org IRC szerveren működő #archivebot csatornán beírt parancsokkal lehet vezérelni és max. néhány százezer URL-ből álló webhelyek archiválására használható. A keletkező WARC fájlok a crawlert futtató gépről előbb az Archive Team Fortress of Solitude nevű szerverére kerülnek, majd onnan szintén rsync-alapú szinkronizálással az Internet Archive-ba. A rendszer része még egy olyan komponens, ami az IRC kapcsolatot biztosítja és egy további backend modul, ami a futó, illetve befejezett jobokat tartja nyilván, valamint egy webes dashboard felület, amin követhetők a folyamatok. Crawlert az Archive Team aktívabb tagjai futtathatnak a saját gépükön (egy asztali teljesítményű PC-n általában 2-3 job megy egyszerre), ezeket az önkéntesek által működtetett gépeket pipeline-nak hívják. Az egész rendszert is lehet saját szerverre telepíteni, mert egy csomagban is letölthető grab-site néven. Az ArchiveBot robotja feldolgozza a robots.txt tartalmát, de csak további linkek gyűjtésére használja az esetleg benne levő sitemap URL-t.

---