2. modul: Webarchiválás Windows alatt


Bevezető gondolatok

Ez a modul Windows operációs rendszerű gépeken (is) használható archiváló szoftvereket és szolgáltatásokat ismertet, amelyekkel különböző módokon menthetők el weboldalak vagy komplett webhelyek. Vannak köztük az elterjedt Firefox ill. Chrome böngészőkbe beépülő modulok, önállóan futtatható szoftverek, és olyan ingyenes vagy fizetős online szolgáltatások is, melyek használatához szintén csak egy böngészőre és általában regisztrációra van szükség. Ezek az eszközök különböző formátumokba mentenek és vagy a felhasználó saját gépén, vagy pedig egy távoli szerveren, felhőszolgáltatásként tárolják az archív fájlokat. A különféle megoldások eltérő célokra optimálisak: pl. a képként vagy PDF-be való mentés egy screen capture programmal inkább csak gyors megoldásnak, esetleg bizonyítéknak, ill. a böngészőben látható külalak minél pontosabb megőrzésére jó; egy offline browserrel mentve már az eredeti weboldalak közötti hipertext kapcsolatok is megmaradnak és visszanézhetők; az azonnali felhőbe mentést biztosító archive-on-demand megoldások elsősorban a publikációkban, oktatóanyagokban való stabil hivatkozhatóságot segítik elő; míg egy professzionális, előfizetéses webarchiváló szolgáltatással szabványos formátumban tárolt, hosszú távon is fennmaradó, metaadatolható, kereshető webarchívumot hozhatunk létre.

Célok, megszerezhető kompetenciák:

A modul célja, hogy a tanulót megismertesse azokkal a lehetőségekkel, amelyek speciálisabb informatikai ismeretek nélkül, egy Windows alatt futó program vagy böngészőkiegészítő telepítése után, vagy egy internetes szolgáltatást igénybe véve lehetővé teszik webes tartalmak különböző formátumokban való archiválását. A tananyag elsajátítása és a megoldandó feladatok elvégzése után a tanuló képes lesz önállóan weboldalakat és más online elérhető dokumentumokat, illetve webhelyrészeket vagy akár teljes webhelyeket lementeni saját célra vagy egy intézményi gyűjteményhez.

Szükséges eszközök, források:

A Windows 7. , 8. vagy 10. verzióját futtató asztali számítógép vagy laptop internet kapcsolattal, továbbá a legújabb Chrome és/vagy Firefox böngésző..

Feldolgozási idő:

7×45 perc

Témakörök:

  • Internetes tartalmak mentésére használható szoftverek
  • Weboldal- illetve webhely-archiváló online szolgáltatások
  • Ajánlott irodalom:


    1. Internetes tartalmak mentésére használható szoftverek

    1.1. Weboldalkép készítők

    A screen capture (magyarul: képlopó) programoknak van egy olyan válfaja vagy működési módja, amellyel nemcsak a képernyőn éppen látható tartalom, hanem egy teljes weboldal elmenthető egy PNG, vagy JPG, esetleg PDF fájlba. A fejlettebbekkel az is megoldható, hogy pl. egy szövegfájlban megadott URL címlista alapján automatikusan készítsenek ilyen képernyőfotókat egy sor weboldalról – akár időzítve, ismétlődően is. Ennek a megoldásnak nagy előnye, hogy a weboldalnak azt az állapotát és külalakját tudjuk így megőrizni, ahogy az a kép készítésekor az akkor érvényes böngészőben megjelent, szemben azokkal a módszerekkel, amelyek a weboldalakat alkotó fájlokat mentik le és ezekből próbálják később rekonstruálni őket. Utóbbi esetben ugyanis gyakori (és egyre gyakoribb), hogy a komplex, dinamikusan generált weboldalak csak töredékesen kerülnek a webarchívumba és később visszanézve őket hiányosan, illetve eltorzulva jelennek meg. A weboldalképek készítésekor ritkábbak az ilyen megjelenítési problémák, viszont természetesen ezeknél elvész az interaktivitás és a szövegben való kereshetőség (bár a PDF-be mentés esetén utóbbi megmarad és a belső linkek is működőképesek maradhatnak). Mindezen előnyök és hátrányok miatt az oldalkép készítő programokat gyakran kiegészítésként használják a webarchívumoknál a külalak rögzítésére.

    A Grab Them All (röviden: GTA) [wiki szócikk] egy ingyenes Firefox bővítmény, ami az új Firefox Quantummal nem kompatibilis, így a portable Firefox 52.7.4-es vagy régebbi, ú.n. ESR verzióját kell használni hozzá, amiben ki kell kapcsolni az automatikus frissítést. Tömegesen tud PNG vagy JPG képeket csinálni egy TXT fájlból (pl. OSZK_webhelyek.txt) vett URL címekről és az is beállítható, hogy az egyes képek elkészítése előtt mennyi időt várjon arra, hogy az oldal biztosan betöltődjön a böngészőbe. A javascriptek végrehajtásához is megadható egy várakozási idő, amit azért is érdemes 5-10 másodpercre állítani, hogy legyen időnk az esetleges felugró ablakokat bezárni. Teljes oldalkép készítésekor elég csak a szélesség értékét meghatároznunk, de mivel ez nem a kép, hanem a GTA ablak szélessége, a margók és a görgetősáv méretét is figyelembe kell venni. <2.1.1_gta.mp4> <2.1.1_gta_oszk.pptx>

    A Nimbus Screen Capture [wiki szócikk] (más néven: Nimbus Screenshot & Screen Video Recorder) szintén ingyen telepíthető kiegészítő Chrome, Firefox és egyéb böngészőkhöz. Hasonlóan működik, mint a billentyűzeten levő Print Screen gomb, de automatikusan végiglapozza az éppen nézett weboldalt és összefűzi az egyes képernyődarabokat egy PNG vagy JPG képpé, amit azután még szerkeszthetünk és feltölthetünk egy felhőtárhelyre is. Mivel más technikát használ, mint a Grab Them All, ezért más, általában jobb eredményt ad, viszont nem adható meg neki előre egy URL címlista. További hibája, hogy a nagy méretű oldalakkal nem mindig boldogul: vagy nem tudja a teljes oldalt „lefényképezni”, vagy nem tudja elmenteni. Előbbi esetben a hiányzó részt A kiválasztott + görgetés opcióval lehet eltenni egy külön fájlba, utóbbi esetben pedig a szerkesztő felületen levő képet vágólapra másolva, majd egy képkezelő programba (pl. Irfanview) beillesztve tudjuk elmenteni. <2.1.1_nimbus.mp4>

    Hasonló funkciókat kínál a FireShot (más néven: Full Web Page Screenshots) [wiki szócikk] kiegészítő, amely szintén többféle böngészőhöz telepíthető és az ingyenes verziója a PNG és JPG mellett PDF-be is tud menteni, bár szintén csak képként, viszont az oldalon levő linkek kattinthatóak maradnak (de természetesen ezek az élő webre mutatnak és az ingyenes változatnál csak néhány másodperces várakozás után nyílnak meg). <2.1.1_fireshot.pdf> A fizetős FireShot Pro egy képszerkesztőt is tartalmaz, továbbá többoldalas PDF fájlok is létrehozhatók vele, több böngészőfül egyszerre menthető, és az oldalképek közvetlenül feltölthetők különböző felhőtárhelyekre. Említést érdemel még a GoFullPage (korábbi nevén Full Page Screen Capture) Chrome bővítmény, ami szintén tud PDF-be is menteni és a fizetős Premium változat még arra is ügyel, hogy a sorokat ne vágja el az oldaltöréseknél. A Firefox maga is tartalmaz oldalkép készítő funkciót, ami a Ctrl+Shift+S billentyűparanccsal vagy az oldal egy üres területére jobb egérgombbal kattintva érhető el. <2.1.1_firefox1.png> Választhatunk a teljes oldalkép vagy csak az éppen látható terület lefotózása közül, <2.1.1_firefox2.png> a képet pedig vágólapra másolhatjuk vagy PNG fájlba menthetjük. <2.1.1_firefox3.png> (Korábban a screenshots.firefox.com szerverre is fel lehetett tölteni, de ezt az ingyenes felhőtárhelyet a cég 2019 nyarán megszüntette.) Ezzel a módszerrel sem lehet akármekkora hosszúságú oldalakat lefotózni, de azért elég nagy méretű képek készíthetők így is. <2.1.1_firefox4.png>

    Az Adobe cég (nem ingyenes) Acrobat nevű PDF szerkesztő programjában levő Web Capture [wiki szócikk] funkció már egy átmenet a weboldalkép készítő és a weboldal/webhely lementő eszközök között. <2.1.1_acrobat1.png> <2.1.1_acrobat2.png> A megadott URL címen található weboldalból tud JPG, PNG és PDF fájlt is készíteni, de azt is megadhatjuk, hogy kövesse az oldalon talált linkeket egy bizonyos mélységig és ezeket is tegye bele a fájlba. PDF-be mentés esetén a linkek is működőképesek maradnak, és az így generált, könyvjelzőzött és felcímkézett PDF-ek később bővíthetők újabb weboldalakkal, sőt az Acrobat frissíteni is tudja őket, amennyiben az eredeti szerveren megváltoztak időközben. <2.1.1_acrobat3.png> Ennek a módszernek az a fő hátránya, hogy mivel nem egy valódi, fejlett böngészőn keresztül történik a mentés, a bonyolultabb weboldalak külalakja és elrendezése csúnyán szétesik. <2.1.1_acrobat1.pdf> <2.1.1_acrobat2.pdf>

    Ajánlott források: 1. Weboldalak átalakítása PDF dokumentummá, 2. Drótos László (ref.) Webtörténetírás az Internet Archive-ból készített képernyővideókkal

    1.2. Böngészőbe beépülő eszközök

    Az élő web böngészésére szolgáló programok (pl. Google Chrome, Microsoft Edge, Mozilla Firefox, Safari, Opera) kiegészíthetők olyan beépülő (plug-in) modulokkal, amelyek lehetővé teszik a weboldalak lementését későbbi, akár internet kapcsolat nélkül való olvasáshoz, megtekintéshez. Az, hogy mit (csak a szöveget, vagy a médiaelemeket és esetleg az eredeti külalakot is) és milyen formátumban ment ez az offline reader modul, nagyban meghatározza annak felhasználhatóságát a személyes célú, rövid távú megőrzésen túlmutató archiválási feladatokra. Azok a megoldások, amelyek szabványos archív formátumot és másokkal is megosztható felhőtárhelyet használnak, akár beépíthetők egy intézményi webarchívum eszköztárába is.

    A Pocket [wiki szócikk] eredetileg (Read It Later néven) egy külön telepíthető Firefox kiegészítő volt, amellyel elmenthettük az éppen nézett oldalt későbbi olvasáshoz. 2015-ben a modul bekerült a böngésző alapfunkciói közé. <2.1.2_pocket1.png> és már Chrome bővítmény, valamint mobil applikáció is van hozzá. A mentett oldalak (csak olvasási nézet!) vagy egyéb fájlok a Firefox vagy Google fiókhoz kötött felhőtárhelyre kerülnek (app.getpocket.com), szinkronizálódnak a különböző eszközeink között, címkézhetők és megoszthatók, és keresni is tudunk mások nyilvános Pocket anyagai között, így egyben könyvjelző megosztó alkalmazás is. <2.1.2_pocket2.png> A fejlett keresővel rendelkező, előfizetős Pocket Premium szolgáltatás esetében a Permanent Library nevű funkció hosszú távú megőrzést biztosít olyankor is, amikor az eredeti weboldal már nem elérhető vagy megváltozott. (Hasonló funkciókat nyújt a Google Keep, mellyel weboldalakról kimásolt linkeket, szövegeket és képeket menthetünk el a felhőtárhelyünkre, jegyzeteket és címkéket adva hozzájuk.)

    A Save Page WE [wiki szócikk] egy nagyon egyszerűen használható eszköz egy weboldal minden elemének egyetlen HTML fájlba való mentésére. A nem szöveges fájlokat BASE64 kódolással alakítja át betűkké és számokká, ezért a sok képet tartalmazó oldalak esetében a HTML fájl nagy méretű lesz. A program beállításainál részletesen szabályozhatjuk a mentés módját és nemcsak az aktuális weboldalt menthetjük vele, hanem akár az összes megnyitott böngészőfület vagy egy előre összeállított URL listát. <2.1.2_save_page_we.png> Parancsmódban is futtatható, Chrome és Firefox verziója is van.

    A ScrapBook X [wiki szócikk] egy régóta fejlesztett, sokat tudó és magyar fordítással is ellátott Firefox kiegészítő, mellyel egy felhasználóbarát felületen tudunk weboldalakat, vagy akár teljes vagy részleges webhelyeket elmenteni a gépünkre, majd pedig ezeket a mentéseket szerkeszteni, összefűzni, sőt teljes szöveggel keresni is lehet. További bővítmények is telepíthetők hozzá, és így például a nyílt Mozilla Archive Format [MAFF] formátumba is konvertálhatók a mentések, amely tulajdonképpen a weblapokból és az azokhoz tartozó egyéb fájlokból készített ZIP csomag. Sajnos a Firefox Quantum verziójával nem működik együtt, úgyhogy a használatához a Firefox ESR változatot kell telepíteni. <2.1.2_scrapbook1.png> <2.1.2_scrapbook2.png> A fejlesztője 2017 őszén Web ScrapBook [wiki szócikk] néven új projektet indított egy Quantum- és Chromium-kompatibilis kiegészítő elkészítése céljából, de ennek kevésbé felhasználóbarát felülete van. Viszont a fájlok a saját gépünk helyett egy backend szerverre is lementhetők, így intézményi szintű gyűjtemény is építhető vele. <2.1.2_webscrapbook1.png> <2.1.2_webscrapbook2.png>

    Chrome böngészőhöz készült kiegészítő a WARCreate [wiki szócikk], amivel az éppen nézett weboldalt szabványos, a nagy webarchívumok által is használt Web ARChive [WARC] fájlként tudjuk elmenteni, ami lényegében egy „konténer” formátum, melybe egy weboldal minden eleme és azok technikai metaadatai is belepakolhatók. <2.1.2_warcreate.png> A WARC fájl Windows alatt a Webrecorder Player [wiki szócikk] vagy a ReplayWeb.Page [wiki szócikk] programmal nézhető meg, de akár be is küldhető például egy intézményi archívumba, ahol indexelés után a PyWb [wiki szócikk] megjelenítő felülettel is böngészhető.

    A Mink [wiki szócikk] szintén egy Chrome bővítmény, ami a Memento Project [wiki szócikk] által bevezetett HTTP protokoll-bővítés segítségével automatikusan lekérdez néhány nagy webarchívumot, hogy az éppen nézett weboldalról vannak-e és ha igen, akkor mikori mentések, majd ezek megtekintését egy lenyíló listában felajánlja. <2.1.2_mink1.png> Az „Archive Page To...” gomb megnyomásával pedig kezdeményezhetjük az oldal aktuális állapotának lementését az Internet Archive "Save page now..." vagy az archive.is szolgáltatással, de akár egyszerre mindkét webarchívumba is elmenthetjük azt. <2.1.2_mink2.png>

    A különféle böngészőkiegészítők között számos olyat is találunk, melyek a webarchiválás egyes munkafolyamatait (pl. válogatás, metaadatolás, archiválási módszer eldöntése, minőségellenőrzés) segítik, vagy pedig egy speciális tartalomtípus (pl. kép, podcast, beágyazott vagy streamelt videó) lementésére alkalmasak. Néhány példa: A Wappalyzer vagy a WhatRuns megmutatja, hogy egy webhely milyen technológiákat használ, segítve ezzel az optimális archiváló eszköz és/vagy archiválási paraméterek megválasztását. A Show Title Tag egyszerűen csak annyit csinál, hogy teljes egészében megjeleníti valamelyik sarokban a weboldal fejlécében levő title metaadatot, amit a Chrome egy ideje már csak a böngészőfülön ír ki, rendszerint csak töredékesen és nem lemásolható módon, pedig ez egy fontos információ lehet annak gyors eldöntésére, hogy az adott webhelyet érdemes-e nyilvántartásba venni. Ugyancsak a válogatást és az előzetes metaadatolást gyorsítja a Copy page title and URL nevű bővítmény, amivel két kattintással tudjuk vágólapra másolni a megnyitott weblap nevét és címét. A Link Gopher kilistázza, hogy milyen linkek vannak az adott oldalon, így egyrészt fel tudjuk mérni, hogy az archiválásra kiválasztott webhelyhez tartoznak-e aldomének vagy más doménekről beágyazott tartalmak is, másrészt további hasonló webhelyeket tudunk találni a külső linkek között. A Check My Links szintén a linkeket gyűjti ki, de azt is megmutatja, hogy hol vannak az oldalon belül és hogy működnek-e még. Hasznos lehet például annak eldöntésére, hogy az archivált verziónál le lett-e mentve minden hivatkozás, vagy hogy melyek azok a linkek, amelyek már az eredeti webszerveren sem élnek. A válogatási munkafázisban gyakran kell tömegesen megnyitni URL címeket, amiket például a Link Gopher segítségével gyűjtöttünk össze. Ilyenkor jön jól az Open Multiple URLs nevű kiegészítő. A vágólapról bemásolt szövegből (pl. HTML kódból) is ki tudja szűrni az URL-eket, és azt is megadhatjuk, hogy a háttérben megnyissa-e ezeket, vagy csak akkor töltődjön be a weblap, amikor rákattintunk az adott böngészőfülre. (Utóbbi a jobb megoldás olyankor, ha kevés a szabad memória a gépünkben.)

    A DownThemAll az aktuális oldalon vagy a megnyitott füleken található linkeket és médiafájlokat menti le. Nagyon részletesen szabályozható a program működése és a Kezelő menüpont alatt felügyelhetjük is a folyamatot. A weboldalakon levő képek kigyűjtésére és lementésére számos megoldás van, ezek közül az egyik legügyesebb az Image downloader - Imageye, sokféle szűrési opcióval. A Video DownloadHelper hang- és videótartalmak letöltésére szolgál, és a HTTP Live Streaming (HLS) vagy a Dynamic Adaptive Streaming over HTTP (DASH) technológiával sugárzott tartalommal is elboldogul. A streaming protokollok támogatásához és a médiafájlok konvertálásához egy kísérőalkalmazást is telepíteni kell. A YouTube-ról való letöltést a Chrome áruházban levő verzióból a Google kitiltotta, de a Firefox kiegészítőben ez is működik. Böngészőből való podcast hallgatásra és az egyes adások letöltésére készült a Podcasts bővítmény, melynek fizetős változatában a felvételek szöveges átírása és ilyen módon kereshetővé tétele is benne van. A Web Scraper egy ingyenessége ellenére is egészen ügyes scraping program [wiki szócikk]. A böngésző fejlesztői eszközei (F12 gomb) közé épül be, és itt paraméterezhetjük, hogy egy webhelyről milyen szövegeket, adatokat, linkeket, képeket stb. gyűjtsön be és hogyan görgesse vagy lapozza az oldalakat helyettünk, így a javascripes oldalakkal is elboldogul. Az „összegereblyézett” adatok táblázatos formában jelennek meg és Excelbe betölthető fájlként exportálhatók ki. Van felhőben futó, még többet tudó és nagy teljesítményű változata is, de az már fizetős.

    Ajánlott források: 1. Regisztráció a Pocket szolgáltatásra Firefox fiókkal, 2. Dr. Kosztyánné dr. Mátrai Rita: Kommunikáció és informatika alapjai. 6. téma: az internet archiválása, 3. Drótos László: Mentsük le az internetet! - IV. Személyes archiválás

    1.3. Önálló alkalmazások

    A böngészőkiegészítők mellett több, önállóan futtatható, ingyenes vagy fizetős webhely-letöltő program [offline browser] közül is választhatunk. Ezek az előzőekben ismertetett plug-in moduloknál általában több, esetenként jóval több funkciót biztosítanak: pl. a linkeket követő robotot [crawler][1] futtatnak, így nemcsak egyedi oldalak, hanem teljes webhelyek vagy azok kijelölt részei is lementhetők velük; a letöltési folyamat különféle szempontok szerint paraméterezhető, időzíthető és menet közben is felügyelhető; a mentett tartalmak gyűjteményekbe szervezhetők, kereshetők, frissíthetők stb. A letöltött weboldalak nézegetéséhez vagy egy saját, beépített megjelenítőt használnak, vagy a gépen található valamelyik böngészőt nyitják meg.

    A HTTrack [wiki szócikk] (teljes név: HTTrack Website Copier, Windows változat: WinHTTrack) az egyik legrégibb és legjobb ilyen ingyenes szoftver, melynek magyarított felülete is van. <2.1.3_httrack.mp4> Számos paraméterezési lehetőséget biztosít, így jól szabályozható vele, hogy a kiindulásként megadott URL címről [seed][2] elindulva milyen mélységig kövesse a linkeket, milyen típusú fájlokat töltsön le és milyeneket ne; egyszerre hány szálon és milyen sebességgel történjen a mentés; és hogyan alakítsa lokálissá a linkeket, hogy az archivált anyag internet kapcsolat nélkül is navigálható legyen. <2.1.3_httrack1.png> <2.1.3_httrack2.png> Nincs saját böngésző felület benne, de minden mentéshez csinál egy egységes HTML kezdőlapot, amit a gépünkön levő böngészők valamelyikével megnyitva rövidesen átkerülünk a mentett verzió nyitóoldalára. <2.1.3_httrack3.png> Könnyű megtanulhatósága és rugalmas konfigurálási lehetőségei miatt néhány külföldi webarchiváló projektnél is használják, illetve használták, mert a legtöbb helyen már áttértek a nagyobb teljesítményű és szabványos WARC fájlokat előállító Heritrix aratószoftverre, bár pl. az ausztrál PANDAS [wiki szócikk] rendszer még mindig erre épül.

    A WAIL [wiki szócikk] is elsősorban személyes webarchiválásra szolgáló szoftver, de mivel WARC formátumba ment, ezért egy intézményi archívumnál is hasznos eszköz lehet, különösen mivel ugyanazt a Heritrix [wiki szócikk] aratószoftvert használja, mint a nagy, professzionális rendszerek. Külön érdekessége, hogy Twitter csatornák mentésére is fel van készítve, továbbá 2017-ben az előző részben már ismertetett WARCreate egy módosított változatát is beleépítette a fejlesztője, így a „Page...” kezdetű konfigurációs beállítások esetében a weboldalak letöltése a Chrome böngészőmotorján keresztül történik, amivel a mai, dinamikusan generált, bonyolult felépítésű weboldalak jobb minőségben menthetők, mint a Heritrix-szel. <2.1.3_wail1.png> Az egyes mentések részgyűjteményekbe szervezhetők és később újraarathatók. <2.1.3_wail2.png> 64 bites Windows 7 vagy későbbi verzió alatt működik, és csak akkor, ha a C: winchester gyökérkönyvtárában levő WAIL/ mappába tesszük és rendszergazdai jogosultsággal futtatjuk (de még így is előfordul, hogy kétszer-háromszor is el kell indítani). <2.1.3_wail.mp4> A WARC fájlok a Dokumentumok/ nevű Windows mappánkba kerülnek és visszanézhetők a WAIL-be beépített Wayback [wiki szócikk] megjelenítővel, vagy a WAIL-től függetlenül elindítható, a következő fejezetben ismertetett Webrecorder Playerrel [wiki szócikk].

    Ajánlott források: 1. MIA Wiki: Offline browser szoftverek, 2. Wikipédia : HTTrack

    2. Weboldal- illetve webhely-archiváló online szolgáltatások

    A saját gépünkre telepíthető böngészőkiegészítők vagy önállóan futtatható programok mellett vagy helyett használhatunk többféle online szolgáltatást is arra, hogy egy-egy weboldalt vagy az interneten elérhető egyéb digitális dokumentumot (pl. képet, videót, PDF-ben közzétett publikációt), vagy akár komplett webhelyeket archiváljunk. Ezek az igény esetén archiváló [archive-on-demand] szolgáltatások lehetnek ingyenesek vagy fizetősek; regisztrációval vagy akár anélkül is használhatók; a mentéseket tárolhatják a szolgáltató szerverén vagy egyéb felhőtárhelyen, de megengedhetik azt is, hogy a saját gépünkre is letöltsük őket.

    A Save Page Now [wiki szócikk] az Internet Archive Wayback Machine [wiki szócikk] oldalán levő funkció, ahol – mindenféle regisztrálás nélkül – megadhatunk egy URL címet <2.2.1_save_page_now1.png> és az ott található weboldalt vagy más fájlt a rendszer azonnal archiválja (ha nincs ennek valamilyen technikai akadálya), majd visszaad egy stabil URL-t, ami a mentett verzióra mutat. <2.2.1_save_page_now2.png> Ezt máris megoszthatjuk másokkal is, de egy idő után a Wayback Machine-ban mindenki számára elérhető lesz a mentés.

    Hasonló szolgáltatást nyújt az archive.is [wiki szócikk] oldal, ahol szintén rendkívül egyszerűen: egy URL-t megadva vagy egy könyvjelző-alkalmazásra (bookmarklet) kattintva menthetünk el egy weblapot, vagy nézhetjük vissza az általunk vagy mások által korábban készített mentéseket. <2.2.1_archive_is1.png> Ez a rendszer egy (elég rossz minőségű) képernyőfotót is készít az oldalról, és azt is lehetővé teszi, hogy egy ZIP csomagban letöltsük a gépünkre a mentett weboldalt és az azt alkotó egyéb fájlokat. <2.2.1_archive_is2.png>

    Főként a publikációkban online forrásokra hivatkozó szerzőknek és szerkesztőknek szánt, gyors archiválást és stabil URL-t biztosító rendszer a WebCite [wiki szócikk]. Sok külföldi folyóirat-szerkesztőség és könyvtár tagja már a WebCite Konzorciumnak, de tagság és regisztráció nélkül is használhatjuk a szolgáltatást, csupán az e-mail címünket kell közölnünk, ahová a mentett változat URL-jét küldik. <2.2.1_webcite.mp4> Érdekesség, hogy alapvető metaadatokat (pl. szerző, cím, kiadó, kiadási dátum, témakör) is megadhatunk a menteni kívánt weboldalról vagy egyéb dokumentumról, amelyek szintén a korrekt idézést segítik. <2.2.1_webcite1.png> Egy könyvjelző-alkalmazás segítségével a böngészőnkbe is beépíthetjük a WebCite szolgáltatását, így egy-két kattintással tudjuk archiválni az éppen nézett weblapot <2.2.1_webcite2.png> és már jön is az e-mail a stabil hivatkozással. <2.2.1_webcite3.png> (2019 augusztusától a WebCite archiváló részét leállították, majd pedig a linkfeloldó funkció is megszűnt. Az Archive Team még júliusban 31 millió dokumentumot átmentett az Internet Archive gyűjteményébe.)

    Szintén a publikációk hivatkozásjegyzékében egyre több gondot okozó link-romlás [link rot][3] ellen kitalált, (főként amerikai) könyvtári konzorciumi háttérrel működő rendszer a Perma.cc [wiki szócikk]. Ez bár egy bizonyos határig ingyenes, de regisztrációhoz kötött szolgáltatás. <2.2.1_perma_cc1.png> <2.2.1_perma_cc2.png> Mivel a böngésző eszköztárára húzható bookmarklet mellett programozható csatoló (API) is van hozzá, beépíthető például repozitóriumokba vagy e-folyóiratok szerkesztőségi rendszerébe, hogy a publikációkban található linkek által hivatkozott dokumentumok automatikusan archiválásra kerüljenek. 2023-ban a Harvard Library Innovation Lab - a Twitter felvásárlását követő tömeges elvándorlást látva - egy ingyenes online szolgáltatást indított Save Your Threads névvel a social.perma.cc URL címen, amellyel Twitter üzenetváltások archiválhatók hitelesített PDF fájlokban. <twitter-com-xpression-app-status.pdf>

    Egy másfajta problémára, a sok interaktív funkciót és beágyazott médiaelemet tartalmazó webes tartalmak (pl. közösségi oldalak, digitális művészeti alkotások) megőrzésére kidolgozott ingyenes megoldás a Windows alá is telepíthető Webrecorder Desktop és annak online változata, a Conifer [wiki szócikk], melyhez egy beépített, valamint egy különálló ReplayWeb.Page [wiki szócikk] (korábban: Webrecorder Player [wiki szócikk]) nevű offline lejátszó is tartozik. <2.2.1_replay_webpage.png> A Webrecorder/Conifer úgy működik, mint egy videomagnó: amikor megnyomjuk a „felvétel” (Capture) gombot, elkezdi rögzíteni a böngészési folyamatot, lement mindent, amit megnézünk a weben, sőt, ha az Autopilot gombot megnyomjuk, akkor magától végigpörgeti az aktuális weboldalt, hogy azok az oldalelemek (pl. képek) is bekerüljenek az archívumba, amelyek csak akkor töltődnek le a webszerverről, ha a felhasználó lejjebb görget. Ezzel a módszerrel olyan oldalakról (pl. Facebook, Instagram, munkahelyi intranet) is lehet mentéseket készíteni, amelyekkel a Heritrix-szerű robotok nem igazán boldogulnak, sőt amelyekre esetleg be sem tudnak lépni a jelszavas védelem vagy a robotok teljes körű kitiltása miatt. <2.2.1_webrecorder.mp4> A Conifer szolgáltatás esetében ha csinálunk magunknak egy felhasználói fiókot, akkor a mentéseinket megoszthatjuk másokkal vagy teljesen nyilvánossá is tehetjük, és letölthetjük őket WARC formátumban offline böngészéshez. <2.2.1_conifer1.png> <2.2.1_coniferr2.png> <2.2.1_coniferr3.png> A visszanézés közben természetesen nem kell megismételnünk az eredeti böngészési folyamatot, bármelyik linkre bármilyen sorrendben rákattinthatunk, de csak azok a linkek fognak működni, amelyeket a felvétel rögzítése során megnéztünk. <2.2.1_coniferr4.png> (2021 elején a Webrecorder Desktop fejlesztése lezárult, helyette a Chrome kiegészítőként és önálló alkalmazásként is használható ArchiveWeb.page [wiki szócikk], nevű eszközt ajánlják, amely a ReplayWeb.Page megjelenítővel gyorsabban betölthető zip-csomagolású WACZ formátumba is tud menteni.)

    Az eddig ismertetett különféle megoldások személyes célú archiválásra, vagy esetleg kisebb intézményi webarchívumok létrehozására alkalmasak, de nagy volumenű, professzionális szintű, előfizetéses alapon működő webarchiváló szolgáltatást is kínál néhány cég a világon. Ezek közül a legismertebb az Internet Archive 2006-ban indított Archive-It [wiki szócikk] rendszere, melynek ügyfelei közt számos könyvtár is található. A megrendelő a böngészőjében megnyitott adminisztrátori felületen tudja az aratásokat menedzselni, ütemezni, metaadatolni, s a lementett webhelyekből gyűjteményeket alakíthat ki. <2.2.1_archive-it1.png> Ezek a gyűjtemények azután vagy nyilvánosan, vagy zárt körben (pl. csak a könyvtár dedikált gépeiről) böngészhetők és kereshetők. Az archív anyagból kutatási célokra leszűrt adathalmazokat is lehet készíteni és letölteni, <2.2.1_archive-it2.png> de maga a teljes archívum is lementhető WARC fájlok formájában az ügyfél saját tárhelyére pl. hosszú távú megőrzés céljából. <2.2.1_archive_it.mp4>

    Ajánlott források: 1. Berta Sándor: A halott linkek nyomában, 2. Sylvie Rollason-Cass: Archive-It Video Curriculum

    Összefoglalás:

    Weboldalakat többféle formában és többféle eszközzel lehet archiválni. Használhatunk olyan programokat, amelyek csak az oldalak képét mentik el, megőrizve így azok tartalmát és külalakját, de az interaktív és a hipertext funkciók, valamint a szöveg kereshetősége és kimásolhatósága elvész. A böngészőkbe beépülő modulok vagy önálló alkalmazások, illetve az online szolgáltatások már az eredeti weboldalt és annak alkotóelemeit mentik el – több-kevesebb hibával, hiánnyal. A fejlettebbek a linkeket is követik, így egész webhelyek vagy webhelyrészek is letölthetők velük. Többségükkel csak alkalmi mentések, kisebb gyűjtemények hozhatók létre, de amennyiben támogatják a nemzetközileg szabványos WARC tárolási formátumot, vagy eleve valamelyik nagy webarchívumba mentenek, akkor hosszú távon is megmaradhatnak a velük készített másolatok. Nagy méretű, üzemszerűen működtethető archiválás vagy egy ezzel foglalkozó cég/szervezet segítségével (általában előfizetéses alapon), vagy egy saját, Linux-szerveren működő rendszer kialakításával valósítható meg. Utóbbiról a következő fejezetben lesz szó.


    Önellenőrző kérdések:

    Megoldandó feladatok:

    1. Készítsen a teljes oldalt tartalmazó képernyőfotókat a http://mekosztaly.oszk.hu/mia weblapról a Nimbus Screenshot és a FireShot segítségével, majd mentse el őket PNG és JPG formátumokban is (és ha van a gépen Firefox, akkor annak a beépített funkciójával is csináljon egy PNG fájlt). Ezután felnagyítva hasonlítsa össze az egyes képeket, hogy melyiken mennyire olvashatók az apró betűs szövegrészek. Nézze meg a programok beállításait, hogy lehet-e jobb minőségű mentéseket készíteni?

    2. Telepítse a Chrome böngészőhöz a WARCreate modult, majd mentse el vele a MIA Wikiből a https://webarchivum.oszk.hu/mediawiki/index.php/WARC szócikket és nézze meg a mentést az előzetesen feltelepített ReplayWeb.page programmal. Próbálja ki, hogy működnek-e szócikkben levő linkek?

    3. Ugyanezt a szócikket mentse el az ArchiveWeb.page programmal is, de úgy, hogy a felvétel leállítása előtt a szócikkben levő néhány belső, majd egy-két külső linkre is kattintson rá. Ezután nézze vissza a mentést és tetszőleges sorrendben kattintson újra ezekre a linkekre, hogy ellenőrizze, mennyire sikerült a szócikkekből hivatkozott oldalak mentése.

    4. Csináljon egy mentést az archive.is rendszerrel a https://hirek.oldal.info/receptek oldalról, majd miután elkészült, nézze meg a képernyőfotót is a „Screenshot” fülre kattintva, továbbá az archív példány URL címét és a különféle megosztási lehetőségeket a „share” link alatt, valamint az oldal korábbi mentéseit a „history” alatt. A legrégebbi mentést töltse le a „download.zip” feliratra kattintva, majd csomagolja ki (pl. a Windows Intézőben a jobb egérgombbal megjelenő „Az összes kibontása...” menüponttal) és nyissa meg az index.html fájlt.

    5. Indítsa el az előre feltelepített HTTrack szoftvert és egy ékezeteket nem tartalmazó nevű mappában (tehát pl. ne a "Letöltések" alatt!) hozzon létre vele egy „nyelvemlek” nevű projektet, ami a http://nyelvemlekek.oszk.hu/ oldal mentését tartalmazza majd. A következő képernyőn a „Webcímek” mezőbe másolja be ezt az URL-t. Ezután az alatta levő „Beállítások” gombra kattintva a „Korlátozások” fülön 3-as értéket állítson be max. mélységnek és 0-át maximális külső mélységnek, az átviteli sebességet pedig vegye maximumra, akárcsak a csatlakozások számát a „Forgalom szabályozás” fülön. A „Keresési szabályok” alatt pedig zárja ki a pdf, mp3 és mp4 típusú fájlok letöltését a "Hivatkozás kizárása" gombbal a "Fájlnév kiterjesztéssel" opciót választva és megadva ezeket a fájlvégződéseket (kézzel is beírhatók egy sorba szóközökkel). A "Hivatkozás" fülön pipálja ki az első két opciót ("Minden URL felfogása..." és "Hivatkozáshoz kapcsolódó nem HTML fájlok letöltése..."). Végül a "Tovább" és a "Befejezés" gombok megnyomásával indítsa el a robotot. Miután befejeződött a mentés, nézze meg a Hibanaplóban (hts-log.txt), hogy mennyi idő alatt hány fájlt, mekkora összméretben töltött le a program, és hogy melyik linket nem sikerült lementenie ("Not Found" (404)), majd a „Tükrözött weblap böngésző” gombbal nyissa meg az archivált anyagot. Végül nézze meg az Intézővel vagy a Commanderrel a gépén a "nyelvemlek" mappa alatt levő alkönyvtárakat, hogy vajon melyikben vannak a nyelvemlékeket ábrázoló JPG képek?


    JEGYZETEK

    1 A weboldalakban levő linkeket követő szoftver.

    2 Annak a weboldalnak az URL címe, ahonnan elindul a crawler.

    3 Az internetes hivatkozások mögül eltűnő tartalom problémája.




    Hátra Kezdőlap Előre