„Browsertrix” változatai közötti eltérés

Innen: MIA
6. sor: 6. sor:
 
== 2. változat ==
 
== 2. változat ==
   
Az [[IIPC]] 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A [[headless browser | headless]] módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan a [[Webrecorder]] "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a [[warc]] fájlba. A mentéseket [[pywb]]-vel lehet visszanézni.
+
Az [[IIPC]] 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A [[headless browser | headless]] módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan a [[Webrecorder]] "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a [[warc]] fájlba. A mentéseket [[PyWb]]-vel lehet visszanézni.
   
 
== 3. változat ==
 
== 3. változat ==
   
Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez még nem készült el a grafikus felület. A Browsertrix Crawler a [[puppeteer]] segítségével vezérli a böngészőt, a mentést pedig a [[pywb]] végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. Egy seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). WACZ formátumba is tud menteni, ami a ReplayWeb.page számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen pywb-vel is visszanézhető az archivált tartalom.
+
Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez még nem készült el a grafikus felület. A Browsertrix Crawler a [[puppeteer]] segítségével vezérli a böngészőt, a mentést pedig a [[PyWb]] végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). [[WACZ]] formátumba is tud menteni, ami a
  +
== ReplayWeb.page ==
  +
számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.
   
 
----
 
----

A lap 2021. szeptember 5., 11:24-kori változata

1. változat

A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik archive-on-demand szolgáltatásnak megőrzésre (jelenleg a webrecorder.io vagy a Save Page Now választható). A böngészőt gyakorlatilag headless browser-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A Heritrix-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.

2. változat

Az IIPC 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A headless módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan a Webrecorder "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a warc fájlba. A mentéseket PyWb-vel lehet visszanézni.

3. változat

Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez még nem készült el a grafikus felület. A Browsertrix Crawler a puppeteer segítségével vezérli a böngészőt, a mentést pedig a PyWb végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). WACZ formátumba is tud menteni, ami a

ReplayWeb.page

számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.