„Browsertrix” változatai közötti eltérés

Innen: MIA
1. sor: 1. sor:
  +
A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára fejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik [[archive-on-demand]] szolgáltatásnak megőrzésre (jelenleg a [[webrecorder|webrecorder.io]] vagy a [[Save Page Now]] választható). A böngészőt gyakorlatilag [[headless browser]]-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A [[Heritrix]]-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.
 
  +
== 1. változat ==
  +
  +
A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik [[archive-on-demand]] szolgáltatásnak megőrzésre (jelenleg a [[webrecorder|webrecorder.io]] vagy a [[Save Page Now]] választható). A böngészőt gyakorlatilag [[headless browser]]-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A [[Heritrix]]-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.
  +
  +
== 2. változat ==
  +
  +
Az [[IIPC]] 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A [[headless browser | headless]] módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan a [[Webrecorder]] "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a [[warc]] fájlba. A mentéseket [[pywb]]-vel lehet visszanézni.
  +
  +
== 3. változat ==
  +
  +
Depcrecated: The Browsertrix system is being refactored into more modular individual components. The main component, Browsertrix Crawler will soon support most of the same crawling features via an integrated Docker image that can be deployed via the command-line. The UI and scheduling components will soon be reimplemented as additional components.
  +
Please see Browsertrix Crawler for latest development.
  +
  +
https://github.com/webrecorder/browsertrix-crawler (3. verzió első része)
  +
https://github.com/webrecorder/browsertrix-behaviors (3. verzió második része)
  +
https://webrecorder.net/2021/02/22/introducing-browsertrix-crawler.html
  +
   
 
----
 
----
   
* [https://github.com/ikreymer/browsertrix A Browsertrix a GitHub-on]
+
* [https://github.com/ikreymer/browsertrix A Browsertrix 1. változata a GitHub-on]
 
* [https://hypothes.is/blog/fund-on-demand-web-archiving-completion/ Benjamin Young: Fund: On-Demand Web Archiving Completion]
 
* [https://hypothes.is/blog/fund-on-demand-web-archiving-completion/ Benjamin Young: Fund: On-Demand Web Archiving Completion]
  +
  +
* [https://github.com/webrecorder/browsertrix A Browsertrix 2. változata a GitHub-on]
  +
* [https://digital.library.unt.edu/ark:/67531/metadc1608963/ Ilya Kreymer: Browsertrix: A New Browser-Based Crawling System from Webrecorder]
  +
   
 
[[Category:SZOFTVEREK]]
 
[[Category:SZOFTVEREK]]

A lap 2021. szeptember 5., 11:13-kori változata

1. változat

A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik archive-on-demand szolgáltatásnak megőrzésre (jelenleg a webrecorder.io vagy a Save Page Now választható). A böngészőt gyakorlatilag headless browser-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A Heritrix-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.

2. változat

Az IIPC 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A headless módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan a Webrecorder "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a warc fájlba. A mentéseket pywb-vel lehet visszanézni.

3. változat

Depcrecated: The Browsertrix system is being refactored into more modular individual components. The main component, Browsertrix Crawler will soon support most of the same crawling features via an integrated Docker image that can be deployed via the command-line. The UI and scheduling components will soon be reimplemented as additional components. Please see Browsertrix Crawler for latest development.

https://github.com/webrecorder/browsertrix-crawler (3. verzió első része) https://github.com/webrecorder/browsertrix-behaviors (3. verzió második része) https://webrecorder.net/2021/02/22/introducing-browsertrix-crawler.html