„Browsertrix” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára fejlesztett (de bármilyen más rendszerbe is beé…”)
 
 
(13 közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva)
1. sor: 1. sor:
  +
A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára fejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik [[archive-on-demand]] szolgáltatásnak megőrzésre (jelenleg a [[webrecorder|webrecorder.io]] vagy a [[Save Page Now]] választható). A böngészőt gyakorlatilag [[headless browser]]-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A [[Heritrix]]-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.
 
  +
== 1. változat ==
  +
  +
A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik [[archive-on-demand]] szolgáltatásnak megőrzésre (jelenleg a [[webrecorder|webrecorder.io]] vagy a [[Save Page Now]] választható). A böngészőt gyakorlatilag [[headless browser]]-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A [[Heritrix]]-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.
  +
  +
== 2. változat ==
  +
  +
Az [[IIPC]] 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A [[headless browser | headless]] módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan az [[ArchiveWeb.page]] "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a [[WARC]] fájlba. A mentéseket [[PyWb]]-vel lehet visszanézni.
  +
  +
== 3. változat ==
  +
  +
Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez akkor még nem készült el a grafikus felület, az csak egy évvel később jelent meg Browsertrix Cloud néven. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a [[PyWb]] végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A [[seed]] lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). [[WACZ]] formátumba is tud menteni, ami a [[ReplayWeb.page]] számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.
   
 
----
 
----
   
* [https://github.com/ikreymer/browsertrix A Browsertrix a GitHub-on]
+
* [https://github.com/ikreymer/browsertrix A Browsertrix 1. változata a GitHub-on]
 
* [https://hypothes.is/blog/fund-on-demand-web-archiving-completion/ Benjamin Young: Fund: On-Demand Web Archiving Completion]
 
* [https://hypothes.is/blog/fund-on-demand-web-archiving-completion/ Benjamin Young: Fund: On-Demand Web Archiving Completion]
  +
* [https://github.com/webrecorder/browsertrix A Browsertrix 2. változata a GitHub-on]
  +
* [https://digital.library.unt.edu/ark:/67531/metadc1608963/ Ilya Kreymer: Browsertrix: A New Browser-Based Crawling System from Webrecorder]
  +
* [https://github.com/webrecorder/browsertrix-crawler A Browsertrix Crawler 3. változata a GitHub-on]
  +
* [https://github.com/webrecorder/browsertrix-cloud A Browsertrix Cloud a GitHub-on]
  +
* [https://webrecorder.net/2021/02/22/introducing-browsertrix-crawler.html Ilya Kreymer: Introducing Browsertrix Crawler]
  +
* [https://webrecorder.net/2022/02/23/browsertrix-cloud.html Ilya Kreymer: Introducing Browsertrix Cloud]
  +
* [https://www.youtube.com/watch?v=NZKfR33cjEc Crawling ODU CS Website With Browsertrix]
  +
* [https://browsertrix.cloud/ Browsertrix Cloud]
  +
* [https://beta.browsertrix.cloud/ IIPC tesztszerver]
   
 
[[Category:SZOFTVEREK]]
 
[[Category:SZOFTVEREK]]

A lap jelenlegi, 2023. március 2., 19:22-kori változata

1. változat

A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik archive-on-demand szolgáltatásnak megőrzésre (jelenleg a webrecorder.io vagy a Save Page Now választható). A böngészőt gyakorlatilag headless browser-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A Heritrix-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.

2. változat

Az IIPC 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A headless módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan az ArchiveWeb.page "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a WARC fájlba. A mentéseket PyWb-vel lehet visszanézni.

3. változat

Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez akkor még nem készült el a grafikus felület, az csak egy évvel később jelent meg Browsertrix Cloud néven. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a PyWb végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). WACZ formátumba is tud menteni, ami a ReplayWeb.page számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.