„Browsertrix” változatai közötti eltérés
10. sor: | 10. sor: | ||
== 3. változat == |
== 3. változat == |
||
− | Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez még nem készült el a grafikus felület. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a [[PyWb]] végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A [[seed]] lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). [[WACZ]] formátumba is tud menteni, ami a [[ReplayWeb.page]] számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom. |
+ | Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez akkor még nem készült el a grafikus felület, az csak egy évvel később jelent meg Browsertrix Cloud néven. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a [[PyWb]] végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A [[seed]] lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). [[WACZ]] formátumba is tud menteni, ami a [[ReplayWeb.page]] számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom. |
---- |
---- |
||
19. sor: | 19. sor: | ||
* [https://digital.library.unt.edu/ark:/67531/metadc1608963/ Ilya Kreymer: Browsertrix: A New Browser-Based Crawling System from Webrecorder] |
* [https://digital.library.unt.edu/ark:/67531/metadc1608963/ Ilya Kreymer: Browsertrix: A New Browser-Based Crawling System from Webrecorder] |
||
* [https://github.com/webrecorder/browsertrix-crawler A Browsertrix Crawler 3. változata a GitHub-on] |
* [https://github.com/webrecorder/browsertrix-crawler A Browsertrix Crawler 3. változata a GitHub-on] |
||
+ | * [https://github.com/webrecorder/browsertrix-cloud A Browsertrix Cloud a GitHub-on] |
||
* [https://webrecorder.net/2021/02/22/introducing-browsertrix-crawler.html Ilya Kreymer: Introducing Browsertrix Crawler] |
* [https://webrecorder.net/2021/02/22/introducing-browsertrix-crawler.html Ilya Kreymer: Introducing Browsertrix Crawler] |
||
+ | * [https://webrecorder.net/2022/02/23/browsertrix-cloud.html Ilya Kreymer: Introducing Browsertrix Cloud] |
||
* [https://www.youtube.com/watch?v=NZKfR33cjEc Crawling ODU CS Website With Browsertrix] |
* [https://www.youtube.com/watch?v=NZKfR33cjEc Crawling ODU CS Website With Browsertrix] |
||
* [https://browsertrix.cloud/ Browsertrix Cloud] |
* [https://browsertrix.cloud/ Browsertrix Cloud] |
A lap 2023. március 2., 17:53-kori változata
1. változat
A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik archive-on-demand szolgáltatásnak megőrzésre (jelenleg a webrecorder.io vagy a Save Page Now választható). A böngészőt gyakorlatilag headless browser-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A Heritrix-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.
2. változat
Az IIPC 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A headless módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan az ArchiveWeb.page "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a WARC fájlba. A mentéseket PyWb-vel lehet visszanézni.
3. változat
Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez akkor még nem készült el a grafikus felület, az csak egy évvel később jelent meg Browsertrix Cloud néven. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a PyWb végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). WACZ formátumba is tud menteni, ami a ReplayWeb.page számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.
- A Browsertrix 1. változata a GitHub-on
- Benjamin Young: Fund: On-Demand Web Archiving Completion
- A Browsertrix 2. változata a GitHub-on
- Ilya Kreymer: Browsertrix: A New Browser-Based Crawling System from Webrecorder
- A Browsertrix Crawler 3. változata a GitHub-on
- A Browsertrix Cloud a GitHub-on
- Ilya Kreymer: Introducing Browsertrix Crawler
- Ilya Kreymer: Introducing Browsertrix Cloud
- Crawling ODU CS Website With Browsertrix
- Browsertrix Cloud