„Browsertrix” változatai közötti eltérés

A lap jelenlegi, 2025. augusztus 21., 10:52-kori változata

1. változat

A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára 2015-ben kifejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik archive-on-demand szolgáltatásnak megőrzésre (jelenleg a webrecorder.io vagy a Save Page Now választható). A böngészőt gyakorlatilag headless browser-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A Heritrix-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.

2. változat

Az IIPC 2019-es konferenciáján bemutatott továbbfejlesztett változat, amely egy Docker konténerben futtatható önálló archiváló eszköztár. Ehhez már készült egy saját, egyszerű GUI, de a bonyolultabb aratásokat csak parancsmódban vagy yaml fájlokon keresztül lehet konfigurálni. A headless módban futtatott Chrome böngészőhöz külön definiálhatók "viselkedések" (behaviors), ezekkel vezérelve például a Twitter vagy a Facebook oldalak letöltését. (Hasonlóan az ArchiveWeb.page "autopilot" funkciójához.) Opcionálisan oldalképek is készíthetők vele, valamint a weboldalak szövege Solr-ral leindexelhető. A bejelentkezést igénylő webhelyekhez külön böngészőprofilok készíthetők, így elkerülhető (bár nem száz százalékos biztonsággal), hogy a bejelentkezési adatok bekerüljenek a WARC fájlba. A mentéseket PyWb-vel lehet visszanézni.

3. változat

Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez akkor még nem készült el a grafikus felület, az csak egy évvel később jelent meg Browsertrix Cloud néven. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a PyWb végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A seed lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). WACZ formátumba is tud menteni, ami a ReplayWeb.page számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.

@@ 10. sor: / 10. sor: @@
 == 3. változat ==
-Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez még nem készült el a grafikus felület. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a [[PyWb]] végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A [[seed]] lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). [[WACZ]] formátumba is tud menteni, ami a [[ReplayWeb.page]] számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.
+Két évvel később a projekt ismét új irányt vett: egyetlen integrált rendszer helyett modulokra szedte szét a fejlesztője. 2021 őszén még csak a Browsertrix Crawler komponens volt letölthető, szintén Dockerben, amihez akkor még nem készült el a grafikus felület, az csak egy évvel később jelent meg Browsertrix Cloud néven. A Browsertrix Crawler a Puppeteer segítségével vezérli a böngészőt, a mentést pedig a [[PyWb]] végzi capturing üzemmódban. Van egy screencasting opciója, amivel a böngészőben figyelhetjük, ahogy a robot letölti a weboldalakat. A [[seed]] lista külön fájlban is megadható és seed-enként külön konfigurációs szabályok határozhatók meg. Több szálon is futtatható és ehhez is vannak behavior scriptek (pl. autoscroll, video autoplay, valamint webhely-specifikus viselkedések). [[WACZ]] formátumba is tud menteni, ami a [[ReplayWeb.page]] számára szükséges indexeket és technikai adatokat is tartalmazza, de természetesen PyWb-vel is visszanézhető az archivált tartalom.
 ----
@@ 19. sor: / 19. sor: @@
 * [https://digital.library.unt.edu/ark:/67531/metadc1608963/ Ilya Kreymer: Browsertrix: A New Browser-Based Crawling System from Webrecorder]
 * [https://github.com/webrecorder/browsertrix-crawler A Browsertrix Crawler 3. változata a GitHub-on]
+* [https://github.com/webrecorder/browsertrix-cloud A Browsertrix Cloud a GitHub-on]
 * [https://webrecorder.net/2021/02/22/introducing-browsertrix-crawler.html  Ilya Kreymer: Introducing Browsertrix Crawler]
+* [https://webrecorder.net/2022/02/23/browsertrix-cloud.html  Ilya Kreymer: Introducing Browsertrix Cloud]
+* [https://blogs.bl.uk/webarchive/2024/10/archiving-social-media-with-browsertrix.html Carlos Lelkes-Rarugal: Archiving Social Media with Browsertrix]
 * [https://www.youtube.com/watch?v=NZKfR33cjEc Crawling ODU CS Website With Browsertrix]
+* [https://browsertrix.cloud/ Browsertrix Cloud]
+* [https://beta.browsertrix.cloud/ IIPC tesztszerver]
 [[Category:SZOFTVEREK]]

„Browsertrix” változatai közötti eltérés

A lap jelenlegi, 2025. augusztus 21., 10:52-kori változata

1. változat

2. változat

3. változat

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök