Browsertrix

Innen: MIA

1. változat

A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik archive-on-demand szolgáltatásnak megőrzésre (jelenleg a webrecorder.io vagy a Save Page Now választható). A böngészőt gyakorlatilag headless browser-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A Heritrix-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.

2. változat

Az IIPC 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A headless módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan az ArchiveWeb.page "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a WARC fájlba. A mentéseket PyWb-vel lehet visszanézni.

3. változat

Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez akkor még nem készült el a grafikus felület, az csak egy évvel később jelent meg Browsertrix Cloud néven. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a PyWb végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). WACZ formátumba is tud menteni, ami a ReplayWeb.page számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.