„Browsertrix” változatai közötti eltérés

Innen: MIA
6. sor: 6. sor:
 
== 2. változat ==
 
== 2. változat ==
   
Az [[IIPC]] 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A [[headless browser | headless]] módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan a [[Webrecorder]] "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a [[warc]] fájlba. A mentéseket [[pywb]]-vel lehet visszanézni.
+
Az [[IIPC]] 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A [[headless browser | headless]] módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan a [[Webrecorder]] "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a [[warc]] fájlba. A mentéseket [[pywb]]-vel lehet visszanézni.
   
 
== 3. változat ==
 
== 3. változat ==
   
  +
Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez még nem készült el a grafikus felület. A Browsertrix Crawler a [[puppeteer]] segítségével vezérli a böngészőt, a mentést pedig a [[pywb]] végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. Egy seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). WACZ formátumba is tud menteni, ami a ReplayWeb.page számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen pywb-vel is visszanézhető az archivált tartalom.
Depcrecated: The Browsertrix system is being refactored into more modular individual components. The main component, Browsertrix Crawler will soon support most of the same crawling features via an integrated Docker image that can be deployed via the command-line. The UI and scheduling components will soon be reimplemented as additional components.
 
Please see Browsertrix Crawler for latest development.
 
 
https://github.com/webrecorder/browsertrix-crawler (3. verzió első része)
 
https://github.com/webrecorder/browsertrix-behaviors (3. verzió második része)
 
https://webrecorder.net/2021/02/22/introducing-browsertrix-crawler.html
 
 
   
 
----
 
----
25. sor: 19. sor:
 
* [https://github.com/webrecorder/browsertrix A Browsertrix 2. változata a GitHub-on]
 
* [https://github.com/webrecorder/browsertrix A Browsertrix 2. változata a GitHub-on]
 
* [https://digital.library.unt.edu/ark:/67531/metadc1608963/ Ilya Kreymer: Browsertrix: A New Browser-Based Crawling System from Webrecorder]
 
* [https://digital.library.unt.edu/ark:/67531/metadc1608963/ Ilya Kreymer: Browsertrix: A New Browser-Based Crawling System from Webrecorder]
  +
  +
* [https://github.com/webrecorder/browsertrix-crawler A Browsertrix Crawler 3. változata a GitHub-on]
  +
* [https://webrecorder.net/2021/02/22/introducing-browsertrix-crawler.html Ilya Kreymer: Introducing Browsertrix Crawler]
  +
   
   

A lap 2021. szeptember 5., 11:22-kori változata

1. változat

A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik archive-on-demand szolgáltatásnak megőrzésre (jelenleg a webrecorder.io vagy a Save Page Now választható). A böngészőt gyakorlatilag headless browser-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A Heritrix-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.

2. változat

Az IIPC 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A headless módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan a Webrecorder "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a warc fájlba. A mentéseket pywb-vel lehet visszanézni.

3. változat

Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez még nem készült el a grafikus felület. A Browsertrix Crawler a puppeteer segítségével vezérli a böngészőt, a mentést pedig a pywb végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. Egy seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). WACZ formátumba is tud menteni, ami a ReplayWeb.page számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen pywb-vel is visszanézhető az archivált tartalom.