Mentsük le az internetet!

Mentsük le az internetet!

Internetes tartalmak megőrzése intézményi és személyes archiválással


E-learning tananyag vázlata

Szerkesztő: Drótos László

Frissítés dátuma: 2021. 07. 08.

 

Downloading...

 

TARTALOM

A tananyagról
Tanulási cél
Célcsoport
Szükséges háttértudás
Források

I. Webtörténet
Bevezető a modulhoz
I.1 A web előtti internet
I.2 A web születése
I.3 A magyar web kezdetei
I.4 A mai web

II. Digitális kultúra
Bevezető a modulhoz
II.1 Digitális világunk méretei
II.2 A digitális tartalmak veszélyeztetettsége
II.3 A web változékonysága miatti problémák
II.4 A megőrzés nehézségei

III. Intézményi archiválás
Bevezető a modulhoz
III.1 Memóriaintézmények és digitális tartalmak
III.2 Digitális megőrzés webaratással
III.3 Az Internet Archive és a Wayback Machine
III.4 Az IIPC és a nemzeti webarchívumok
III.5 Az OSZK webarchívuma
III.6 A webarchívumok haszna

IV. Személyes archiválás
Bevezető a modulhoz
IV.1 Személyes digitális archívum
IV.2 Jogi kérdések
IV.3 Igény szerint archiváló szolgáltatások
IV.4 Egyedi weboldalak mentése
IV.5 Médiafájlok letöltése
IV.6 Weboldalak tömeges letöltése
IV.7 Levelezés mentése
IV.8 Felhőszolgáltatásokból való exportálás
IV.9 Mobil eszközökkel való archiválás

 



A tananyagról


Tanulási cél

Az internet napjaink legfontosabb – a fiatalabb korosztályoknak pedig szinte kizárólagos – információhordozó és kommunikációs eszköze. Ugyanakkor minden korábbi médiumnál veszélyeztetettebb, mert bármikor eltűnhetnek róla a számunkra fontos információforrások, dokumentumok. A digitális műveltség egyik fontos eleme a számítógépeinken és a mobil eszközeinken levő fájlokról való biztonsági mentések készítésének képessége. Ez a tananyag a világhálón található állományok megőrzésének fontosságára hívja fel a figyelmet, bemutatja annak intézményes formáit, valamint részletesen ismerteti a magáncélú archiválás módszereit. A kurzus célja, hogy a tanulókban tudatosítsa a felhőszolgáltatásokban tárolt saját tartalmak időnkénti lementésének fontosságát és megtanítsa őket arra, hogy akár iskolai feladatokhoz, akár egy családi vagy kisközösségi digitális gyűjtemény számára offline is használható és hosszabb távon megőrizhető formában töltsenek le weboldalakat és egyéb fájlokat az internetről.

Célcsoport

Középiskolás diákok.

Szükséges háttértudás

Átlagos szintű Windows- és internet-használati ismeretek. Minimális angol nyelvtudás előny.

Források


I. Webtörténet


Bevezető a modulhoz

Ez a modul az internet megszületését, a világháló fejlődését és működésének alapjait ismerteti. Bemutatja a magyar hálózat hőskorát és a web egymást követő, egymásra épülő generációit.

Célok, megszerezhető kompetenciák: A modul célja, hogy a tanuló képet kapjon a web történetéről és azokról a technológiákról, amelyek a háttérben működtetik. A tananyag elsajátítása után képes lesz kontextusba helyezni az őt körülvevő online digitális környezetet, megérteni a web és az internet közötti különbséget, és a web, mint információhordozó komplexitását.

Szükséges eszközök, források: Asztali számítógép vagy laptop internet kapcsolattal és webböngészővel.

Feldolgozási idő: 3×45 perc


I.1 A web előtti internet

L O – ez volt az első két betű, ami átment az internet elődjén, az ARPANET hálózaton 1969. október 29-én. Persze akkor még nem a mai internetes szlengben a laughing out loud (hangos nevetés) helyett használt LOL rövidítést akarta leírni Charley Kline, a kaliforniai egyetem programozó diákja, hanem a bejelentkezést jelentő LOGIN szót. Ám a stanfordi kutatóintézet számítógépével felépített kapcsolat a második betű átvitele után megszakadt és csak egy óra múlva sikerült helyreállítani, amikor újrakezdhette a gépelést. A katonai és tudományos célokat szolgáló ARPANET technológiájára alapozva jött létre később a „hálózatok közötti hálózat”, vagyis az inter-net. Ez a kilencvenes évektől kezdve fokozatosan más intézmények, sőt magánszemélyek számára is elérhetővé vált, és ma már emberek és digitális eszközök milliárdjait köti össze.

A korai interneten olyan, mára szinte teljesen kihalt „őslények” éltek, mint a közösségi fórumok elődje: a Usenet; a csevegő alkalmazások öregapja: az IRC; az adatbázisok első generációja: a WAIS; vagy a web korai nagy riválisa: a mindent begyűjtő hörcsögről elnevezett Gopher. Fájlokat letölteni FTP-vel kellett; távoli gépekhez kapcsolódni sokáig csak begépelt telnet parancsokkal lehetett; a Google helyett pedig Archie és Veronica segített a keresésben, később pedig az AltaVista és annak magyarított változata: az AltaVizsla.

Egy ősrégi találmány viszont megmaradt, sőt máig ez az egyik legnépszerűbb szolgáltatás a neten. A hálózaton át továbbítható szöveges üzenetet Ray Tomlinson rendszerfejlesztő mérnök találta ki 1971 végén. Az első e-mailt saját magának küldte egy másik gépre, így az első két postafiók neve TOMLINSON@BBN-TENEXA és TOMLINSON@BBN-TENEXB volt. Magáról a levélről csak annyit tudni, hogy csupa nagybetűvel íródott, mert az akkori billentyűzeteken még nem volt kisbetű és hogy valami értelmetlen betű- vagy számsorozat lehetett. A postafiók tulajdonosát és a számítógép nevét elválasztó @ (at) karaktert a Shift/P megnyomásával kellett beírni és mivel akkoriban nem volt más funkciója, jó ötletnek tűnt felhasználni valamire. Sok évvel később a „kukac” jel az internetes világ jelképévé vált, az elektronikus levelezés feltalálása pedig teljesen új irányt adott a nagy távolságú hálózatoknak: a számítógépek teljesítményének megosztása helyett az információcsere, az emberek közötti kommunikáció lett a fő céljuk.


I.2 A web születése

Az internethez a kilencvenes évekig elsősorban kutatók és egyetemi emberek fértek hozzá és közülük is keveseknek volt a használatához elegendő informatikai tudása. A nagy változást a web megjelenése hozta, amit a ma leginkább a Nagy Hadronütköztetőről ismert svájci CERN intézet informatikusa, Tim Berners-Lee kezdett el kifejleszteni 1989-ben. A „világméretű pókháló”, vagyis a World Wide Web eredeti célja a fizikusok számára fontos kutatási anyagokhoz való hozzáférés megkönnyítése volt az akkor már jól ismert hipertext és az internet összeházasításával. A hiperszöveg lényege, hogy a dokumentumban elhelyezett hivatkozások segítségével a szöveg egyik pontjáról átugorhatunk ugyanannak vagy akár egy másik szövegnek egy másik pontjára. Az öt évvel később az angol királynő által lovaggá ütött Sir Tim nagy ötlete az volt, hogy ez a másik dokumentum lehet egy másik számítógépen is.

Ehhez három dolgot kellett még kitalálnia:

  • a HTML nyelvet, amivel a szövegbe kattintható linkeket lehet tenni;
  • a HTTP szabályrendszert, amivel ezek a HTML fájlok átvihetők a hálózaton;
  • és az URL címzést, hogy minden dokumentumnak legyen egy saját azonosítója.

De volt még egy fontos feltétele annak, hogy a web ne csak az informatikusok játékszere maradjon, hanem néhány év múlva robbanásszerű növekedésnek induljon: szükség volt egy, a weboldalak böngészésére szolgáló szoftverre. Az első browsert is ő írta, amit 2019-ben, a világháló feltalálásának harmincadik évfordulóján újraalkottak a CERN-ben és egy mai böngészőben futtatva bárki kipróbálhatja a worldwideweb.cern.ch címen. Az ősrobbanás kiindulópontját jelentő honlap az info.cern.ch oldalról érhető el. Hogy 1996 és 2016 között mekkorára tágult a webes univerzum, azt pedig a webverse.org oldalon nézhetjük meg, ami a III.4 fejezetben szereplő Internet Archive adatai alapján készült 3D modell a fontosabb webhelyekről.

A webhelyek nyilvántartását kezdetben szintén Tim Berners-Lee csinálta egy kézzel szerkesztett HTML fájlban. Ez persze hamarosan fenntarthatatlan lett, úgyhogy elkezdtek megjelenni azok a szoftverek, amelyek automatikusan térképezik fel a webet az egyes csomópontokat összekötő linkeket követve. Az első ilyen a World Wide Web Wanderer nevű program volt 1993-ban, majd egy évvel később elindult a WebCrawler, ami már nemcsak a webhelyek nevét és URL címét, hanem a rajtuk található szövegeket is begyűjtötte és egy kereshető adatbázist csinált belőlük. (A weben vándorló szoftverrobotok neve azóta is crawler vagy spider, ilyeneket használnak a III. modulban ismertetett nagy webarchívumok is.) A WebCrawlert egy sor, egyre kifinomultabb keresőgép követte, mígnem 1998-ban elindult a Google, ami a kínai Baidu keresőhöz hasonló módszerrel rendezi előre a legjobb találatokat. Az elgoog.im/google1998/ oldalon ma is kipróbálható a ‘98-as Google szimulációja, de ez már minden kérdésre ugyanazt a találati listát adja és az egyes találatokra kattintva az Internet Archive korabeli mentései jelennek meg.


I.3 A magyar web kezdetei

Hazánkban a rendszerváltás előtt egy X.25 nevű számítógépes hálózat épült ki a kutatóintézetek és a felsőoktatási intézmények között. Ez technológiájában hasonlított az internethez, de nem volt annak része, bár voltak átjárók a két hálózat között, így például levelet lehetett küldeni internetes e-mail címekre is. A magyar levelezőrendszert ELLA-nak hívták, az FTP-hez hasonló fájl le- és feltöltő szolgáltatást pedig PETRA-nak, talán mert az akkori informatikusok szinte mind férfiak voltak.

Ennek a romantikus korszaknak 1990 után lett vége. Ekkortájt jött létre az első internet kapcsolat a linzi egyetem és a magyar SZTAKI kutatóintézet között, bejegyzésre került a magyar szervereket azonosító .hu végződés és az első doménnév is: a sztaki.hu. A magyar internetet az Információs Infrastruktúra Fejlesztési Program keretében kezdték el kiépíteni, majd a kilencvenes évek közepétől olyan cégek is beszálltak, mint az akkori legnagyobb telefonszolgáltató, a Matáv, így a hálózatra már cégek és magánemberek is rákapcsolódhattak az adatokat sípoló hangokká alakító modemjeikkel.

Magyarország első webszolgáltatása a Budapesti Műszaki Egyetemen született meg. A „Magyar Honlap” még most is megnézhető a www.fsz.bme.hu/hungary/homepage_h.html címen. Érdekes adat, hogy két évig „Magyar Ottlap” volt a neve, mivel az akkori nyelvújítók kezdetben ezt a szót szavazták meg az angol homepage magyarításaként. Ez az oldal sokáig valóban a magyar internet kezdőpontja volt, el lehetett róla érni az összes fontos hazai webhelyet és egyéb szervert.

Ízelítőül néhány a kilencvenes évek népszerű magyar internetes szolgáltatásai közül, melyekből az Internet Archive megőrzött még valamit:

  • HIX – eredetileg egy amerikai szerveren, külföldön élő magyaroknak indított fórumok és hírlevelek, a legrégibbek 1990-esek;
  • MEK – az 1994-ben életre hívott Magyar Elektronikus Könyvtár;
  • iNteRNeTTo – az 1995-ben alapított első komolyabb hírportál;
  • Egyelőre TOP 100 – az 1995-ben indult első slágerlista a magyar neten;
  • HuDir – a hazai weboldalak katalógusa 1995-től kezdve;
  • Nagy Internet kalauz mindenkinek – egy amerikai szakkönyv 1995-ös fordítása;
  • Internet Expo Magyar Pavilon – az 1996-os virtuális világkiállításra készült magyar összeállítás;
  • Internet.galaxis 97 – az 1997. február 27. és március 5. közötti rendezvénysorozat programja.


I.4 A mai web

A web az első években jellemzően egy „csak olvasható” szolgáltatás volt. Bár az eredeti hiperszövegből gyorsan hipermédiává vált azzal, hogy kép, hang és videó is beágyazható lett az oldalakba, az 1.0-ás webet az emberek általában úgy használták, mint az újságot vagy a televíziót. Nagyjából a kilencvenes évek végétől viszont már egy „írható és olvasható” médiumról beszélünk, mert megjelentek vagy nagyon megnőttek azok a webhelyek, amelyek csak egy szolgáltatófelületet adnak, de a tartalmat maguk a felhasználók állítják össze. Tipikus web 2.0 műfajok például a wikik, a blogok, a közösségi oldalak, a kép-, videó- és dokumentummegosztók, a podkasztok, a hirdetési oldalak, a tárhelyszolgáltatások, a webalapú játékok és a virtuális világok…

Ezekhez a felhasználó tevékenységétől függően változó, az adott pillanatban egy adatbázisból generált weboldalakhoz már az akkori HTML nyelv képességeit meghaladó technikákra volt szükség. Megjelentek az olyan programnyelvek, mint a Javascript és az Ajax, a Java, az Adobe Flash és az MS Silverlight, melyeknek az utasításait a böngésző hajtja végre, megváltoztatva a weboldal tartalmát vagy külalakját. A mai web már nemcsak egyetlen óriási hipermédia dokumentum, hanem egyre nagyobb részben szoftver is, ami eléggé megnehezíti a hosszú távú megőrzését, ahogy erről a II.4 fejezetben még szó lesz.

2006-ban bukkant fel először a web 3.0 fogalma, ami alapvetően a számítógépek számára is értelmezhető, úgynevezett szemantikus webet jelenti. A weboldalakba vagy az azokat előállító adatbázisokba olyan plusz információkat helyeznek el, amelyeket például a keresőgépek, vagy az árucikkeket összehasonlító oldalak, vagy a szállás- és jegyfoglaló rendszerek szoftverei fel tudnak használni arra, hogy a „buta web” időszakhoz képest a felhasználók számára sokkal hasznosabb, személyre szabott szolgáltatásokat tudjanak nyújtani. Ehhez különböző forrásokból származó információkat kombinálnak össze, manapság már gyakran gépi tanulást vagy más mesterséges intelligencia technikákat is felhasználva.

Az okostelefonokon, táblagépeken és más mobil eszközökön működő webes alkalmazások összességét szokták még 4.0-ás webként is emlegetni. Bár ezek gyakran csak az asztali gépekről is elérhető webhelyek kis képernyőre optimalizált változatai, de kétségtelenül sokkal személyesebb és akár a pillanatnyi tartózkodási helyet, vagy időjárást, tevékenységet, egészségi állapotot stb. figyelembe vevő szolgáltatások építhetők rájuk.


II. Digitális kultúra


Bevezető a modulhoz

A modul a digitális kultúránk fontosságára és annak folyamatos változására, gyors növekedésére és egyben pusztulására hívja fel a figyelmet. Ismerteti a változékonyságból fakadó problémákat és a hosszú távú megőrzés nehézségeit.

Célok, megszerezhető kompetenciák: A modul célja annak tudatosítása a tanulóban, hogy az a digitális tartalom, amit minden nap fogyaszt és esetleg ő maga is előállít, az emberi kultúra része, melynek vannak egyéni vagy társadalmi szempontból fontos, rövidebb-hosszabb ideig megőrzendő elemei is, ugyanakkor ez a médium a legnehezebben archiválható. Képes lesz megérteni, hogy milyen problémákat okoz a web változékonysága és milyen nehézségek merülnek fel annak megőrzésével kapcsolatban.

Szükséges eszközök, források: Asztali számítógép vagy laptop internet kapcsolattal és webböngészővel.

Feldolgozási idő: 2×45 perc


II.1 Digitális világunk méretei

Két nemzedéknyi idő alatt az életünk minden területét megváltoztatta az információs és kommunikációs technológia és ez a változás még most is zajlik, sőt gyorsul. A fizikai világ mellett kialakult egy párhuzamos digitális univerzum, amin a valóságban történő legtöbb esemény nyomot hagy, legyen az valamilyen globális probléma vagy egy jelentéktelen magánügy. Az ezt az időszakot megelőző korok kultúrája is fokozatosan beépül a web szövetébe, például a könyvtárakban, múzeumokban, levéltárakban és más archívumokban zajló tömeges digitalizálási programok eredményeként. De a valaha papíron vagy más, kézbe vehető információhordozón megjelent dokumentumhoz képest már most nagyságrendekkel több az eleve digitálisan születő tartalom.

Az internetlivestats.com oldalon – átlagolt statisztikák alapján – folyamatosan látható a világon regisztrált webhelyek száma. Ez 2021. július 8-án 15:48-kor 1.872.356.815 volt és másodpercenként hárommal-néggyel nőtt. (A becslések szerint ezeknek csak kb. egy negyede az aktív szolgáltatás, a többi vagy megszűnt vagy jelenleg nem használt domén.) Ugyancsak itt látszik az aznap vagy az adott évben elküldött elektronikus levelek, kiposztolt blogbejegyzések, megnézett YouTube videók, Instagramra feltöltött képek, közzétett tweetek száma és még egy sor elképesztő adat a digitális világunk méreteiről.


II.2 A digitális tartalmak veszélyeztetettsége

Az internet alapvetően egy jelen idejű információterjesztő csatorna, akárcsak a telefon, vagy a hagyományos rádiós vagy televíziós műsorsugárzás. Mindig az adott pillanatban elérhető szerverek és a rajtuk levő tartalmak és szolgáltatások alkotják a világhálót. Ám mivel lassan minden maradandó információhordozó felköltözik az internetre (újságok, könyvek, fényképek, hanglemezek, filmek stb.), ezért a 21. századi globális, nemzeti, közösségi, családi és személyes emlékezetünk addig terjed, ameddig ezek a digitális dokumentumok elérhetőek. Míg a dédszülők esküvői fényképe sok családnál ott van a falon vagy valamelyik fiókban, a mai ifjú párok lagzijain készült TikTok videókat egész biztosan nem fogják tudni megnézni már a gyerekeik sem.

A winchesteren, pendrive-on, DVD-n, SD kártyán levő fájlokat is fenyegeti az eltűnés, akár véletlen törlés, akár a hordozó sérülése, elvesztése miatt, vagy egyszerűen elavul a formátumuk és már nincs mivel beolvasni őket. Hiába van körülöttünk egyre több digitális eszköz, ki tud ma már egy WordStar szövegszerkesztővel írt, floppy lemezen levő dokumentumot megnyitni? Az internetes szervereken, a „felhőben” tárolt tartalmak még könnyebben semmisülnek meg, sokszor tömegesen, például mert hackerek feltörik a rendszert, vagy mert az üzemeltető cégnek nem éri már meg fenntartani a szolgáltatást. A killedbygoogle.com oldal 2021 nyarán 230 olyan alkalmazást, szolgáltatást és hardver eszközt listázott ki, amelyeket a Google vezetett be, majd szüntetett meg néhány év vagy hónap után. És nem a Google az egyetlen ilyen „tömeggyilkos” az informatikai iparban.

Külön virtuális temetőt lehetne nyitni azoknak a webszervereknek, amelyeket bár milliók használtak és honlapok vagy blogok százezreit szolgáltatták, mégis bezárták őket, mert nem működtek nyereségesen. A törlésre szánt internetes tartalmak gyakran utolsó pillanatban való archiválásával foglalkozó, önkéntesekből álló akciócsoport, az Archive Team honlapján a nyomtalanul eltűnt nagy – főként amerikai – szolgáltatások közt meglepően sok magyart is találunk. Ilyen például a Facebook megjelenése előtti magyar közösségi háló: az iWiW, az Instagram előtti hazai képmegosztó: a Fotoalbum.hu, a YouTube-bal közel egyidős Videoplayer.hu, a fiataloknak szóló Hotdog.hu portál, vagy az Extra.hu, ami az egyik első és legnagyobb ingyenes honlapszolgáltató volt Magyarországon.

De nemcsak ezeknek az óriás fájl- és adathalmazoknak az élő webről való eltűnése a nagy veszteség, egyedi weblapok is tömegesen lesznek az enyészeté minden másodpercben. Az átlagos élettartamuk 100 nap körül van. Nem véletlen, hogy a megszűnt oldalak helyén megjelenő 404-es hibaüzenet a legtöbbször megtekintett internetes tartalom és már-már önálló (nép)művészeti ággá nőtte ki magát.


II.3 A web változékonysága miatti problémák

Az átlag internetezőnek a 404-es hibák csak bosszúságot okoznak, de jó esetben megtalálja a keresett weboldalt vagy információt valahol máshol. Az oktatásban és a tudományban viszont a webnek ez a változékonysága jóval súlyosabb problémát jelent. Miközben egyre inkább a digitális információforrásokat használják a tanárok, diákok és kutatók, ezekben nem lehet megbízni, hiszen bármikor eltűnhetnek vagy megváltozhat a tartalmuk. A tudományos publikációkban hivatkozott online források esetében 5 és 10 év között van a felezési érték, vagyis ennyi idő után a linkek fele már nem az eredeti tartalomra vagy sehová sem mutat. A webkettes helyeken még gyorsabb az erózió, egyes Facebook-posztok, Twitter-üzenetek, Instagram sztorik, YouTube-videók élettartama csak napokban vagy órákban mérhető.

A link-rot az a jelenség, amikor egy láncszem „berozsdál” és elszakad háló, a link már nem vezet sehová. A content drift szakkifejezést pedig arra az esetre használják, ha a hivatkozás még működik, de a linkre kattintva már némileg vagy akár teljesen megváltozott tartalom jelenik meg. (Sok cég például felvásárolja a korábban népszerű, de már megszűnt webhelyek doménneveit, így a linkeket követő internetezők az ő reklámoldalán találják magukat.)


II.4 A megőrzés nehézségei

Ha azt szeretnénk, hogy ne csak jelene, hanem múltja is legyen az internetnek, akkor valahogyan meg kellene őrizni, legalább azt a részét, ami a jövő számára is értékes/érdekes lehet majd. Az első gond mindjárt ez: honnan tudjuk, hogy mire lesznek kíváncsiak a jövőbeli emberek? Az ókori és középkori településeket kutató régészek számára például kifejezetten kincsesbánya egy-egy nagyobb szemétdomb, mert sokat elárul az ott lakók életmódjáról. Őrizzünk meg akkor minden „szemetet” az internetről is? (Amiből amúgy van bőven.) A nyilvános, de személyes jellegű tartalmakat is gyűjtsük, vagy csak azokat, amelyeket valamilyen intézmény vagy szervezet publikál a világhálón? Ki és milyen módon válogasson?

A következő probléma a digitális anyag mennyisége. 2009-ben a nyilvános webnek az a része, amit az Internet Archive le tudott menteni, belefért egy tengeri hajókon használatos 2,4 × 2,4 × 6 méteres konténerbe, ez akkor három petabájtnyi winchestert jelentett. Ez a szám 2017-re 20-szor több lett és egyre gyorsabban nő. (Igaz, a háttértárak kapacitása is sokat fejlődött, miközben egyre kisebbek.) De a web valójában sokkal nagyobb, mint amit az automatikusan működő programok be tudnak gyűjteni. A Google és a webarchívumok robotjai nem tudnak bejutni az olyan helyekre, mint az adatbázisok, a regisztrációt igénylő közösségi oldalak, az előfizetéses szolgáltatások, a speciális szoftvert futtató alkalmazások, és oda sem, ahonnan kizárták őket a webmesterek vagy ahová nem mutat egyetlen link sem. A világhálónak ezt a részét „mély” vagy „láthatatlan web”-nek nevezik és a mérete több százszorosa lehet a keresőgépekkel felderíthető tartalomnak.

A II.2 fejezetben említett formátum-elavulás az internetes tartalmakat is fenyegeti, legtöbbször azok kiberbiztonsági hibái miatt. A multimédia anyagok szolgáltatására használt Silverlight technológia teljesen kikopott a webről, a Java alkalmazások futtatását már csak nagyon bonyolultan lehet engedélyezni a böngészőkben, az animációkhoz és videókhoz pár éve még széles körben használt Flash formátumot pedig éppen most tiltja ki a Google az internetről. Hogy ezek a fájlok a jövőben is megnézhetők maradjanak, ahhoz vagy át kell őket alakítani egy időállóbb formátumra (migrálás), vagy utánozni kell azt a szoftverkörnyezetet, amiben annak idején működtek (emulálás). Egy nagy méretű digitális archívumnál mindkettő bonyolult és költséges informatikai feladat.


III. Intézményi archiválás


Bevezető a modulhoz

A modul a közgyűjtemények és egyéb intézmények felelősségét és tevékenységét ismerteti a dokumentum- és a webhely-szintű digitális megőrzés területén. Bemutatja a nemzetközi és a hazai gyakorlatot, a nagy webarchívumok mögötti technológiát, valamint személyes és tudományos célú használatuk formáit.

Célok, megszerezhető kompetenciák: A modul célja, hogy a tanuló megismerje a memóriaintézmények szerepét a digitális archiválásban, a webarchívumok működését és hasznát. Képes lesz saját céljaira vagy iskolai feladatokhoz használni ilyen archívumokat és megérti ezek előnyeit és korlátait.

Szükséges eszközök, források: Asztali számítógép vagy laptop internet kapcsolattal és webböngészővel.

Feldolgozási idő: 3×45 perc


III.1 Memóriaintézmények és digitális tartalmak

Az Egyesült Nemzetek Szervezetének (ENSZ) oktatási, tudományos és kulturális ügyekkel foglalkozó intézménye (UNESCO) amellett, hogy listába veszi és igyekszik megvédeni azokat az emberi alkotásokat és természeti képződményeket, amelyek a Világörökség részének számítanak, 1992-ben elindított egy Világemlékezet Programot is. Ez az írott és egyéb formában rögzített, az egész emberiség számára fontos kulturális alkotások megőrzéséről szól. Ennek a programnak a részeként 2003-ban az UNESCO kiadott egy figyelmeztetést a digitális kultúránk eltűnésének veszélyéről és felkérte a memóriaintézményeket, hogy foglalkozzanak ezzel a problémával.

A memóriaintézmények közé tartoznak a könyvtárak, a levéltárak, a múzeumok és az audiovizuális archívumok. Ezek jellemzően tekintélyes múltra visszatekintő és hosszú távra tervezett őrzőhelyei a különböző típusú dokumentumoknak és tárgyaknak. Többségükben komoly digitalizálási munkák zajlanak vagy már le is zárultak, melyek eredményeképpen a hagyományos gyűjteményeik számítógépes formában és akár távolról is hozzáférhetőek. Az eleve elektronikusan publikált dokumentumok összegyűjtésére viszont a legtöbb helyen kevesebb figyelem és munkaerő jutott, így sok minden már visszavonhatatlanul elveszett és ezekben a közgyűjteményekben sem található meg.

Hazánkban az 1994-ben alapított Magyar Elektronikus Könyvtár (MEK) kezdett el elsőként ezzel a feladattal foglalkozni. Az első gopher- és webszerverekről próbálták meg a könyvtárosok összegyűjteni a magyar nyelvű könyveket, majd témák szerint rendezni és katalogizálni őket. Az önkéntes mozgalomként indult MEK 1999-ben bekerült az Országos Széchényi Könyvtárba (OSZK), ahol később még két részleggel bővült: egy folyóirat és újság archívummal/adatbázissal (EPA) és egy képarchívummal (DKA). Mindhárom gyűjteményben vegyesen vannak digitalizált és digitálisan született dokumentumok. (Utóbbiakból az új kötelespéldány szabályozásnak köszönhetően az eddigieknél jóval több kerül be az OSZK-ba, mert a kiadónak fel kell tölteniük az elektronikus kiadványaikat is.) 2017-ben pedig elindult a Magyar Internet Archívum (MIA) építése válogatott weboldalak és teljes webhelyek lementésével.

A Nemzeti Könyvtár mellett számos magyar könyvtárban vannak kisebb-nagyobb digitális gyűjtemények; az egyetemeken és kutatóintézetekben megjelentek a tudományos publikációkat és oktatási anyagokat gyűjtő úgynevezett repozitóriumok; 2009-ben elindult egy nagy Elektronikus Levéltár projekt; és 2006 óta működik a Nemzeti Audiovizuális Archívum (NAVA), amely a televíziók és rádiók műsorait tárolja digitális formában.


III.2 Digitális megőrzés webaratással

A interneten található dokumentumok egyenkénti mentése mellett van egy sokkal hatékonyabb módja is annak, hogy nagy tömegű digitális tartalmat gyűjtsünk össze egy intézményi archívumban. Ez az I.2 fejezetben már említett szoftverrobottal (crawler) való aratás, amit a Google is csinál, hogy utána a lementett fájlok közt keresni tudjunk a google.hu oldalon. Ennek a szolgáltatásnak a weben éppen most elérhető információforrások közötti gyors eligazodás a célja, vagyis nem a hosszú távú megőrzéshez készült. A webarchívumok ezért másfajta robotokat használnak, leginkább a Heritrix nevűt, amit 2003-ban kezdett el fejleszteni az amerikai Internet Archive a skandináv nemzeti könyvtárakkal közösen.

A Heritrix-nek kiindulópontként használható webcímeket, úgynevezett seed URL-eket kell megadni, ezek általában egy vagy több honlap, blog, portál kezdőoldalai. Ezután a program lekéri minden egyes webszerverről ezt a kezdőlapot és megnézi, hogy vannak-e benne hivatkozások további weboldalakra vagy egyéb fájlokra. Ha igen, akkor ezeket is lekéri és a bennük talált linkeket is követi. Így megy végig a világháló szálain mindaddig, amíg el nem ér valamilyen előre megadott határt. Ez lehet például a letöltött fájlok száma vagy összmérete, a kezdőlaptól megtett link-ugrások száma, vagy az aratás kezdete óta eltelt idő. De akkor is megáll, ha a kiinduló webhelyről már mindent letöltött, hacsak az indításakor nem engedtük meg neki, hogy más URL címekre is elkóboroljon. Maguk a webmesterek is szabályozhatják egyébként, hogy milyen robotokat és hova engednek be a szerverükön. Ehhez egy robots.txt nevű fájlba kell beírni az engedélyezett és a tiltott mappák nevét.

A webarchívumokhoz használt robotok általában WARC formátumban tárolják a letöltött tartalmat. Ezt az állományt úgy kell elképzelni, mint egy teherszállításhoz használt konténert, amibe – érkezési sorrendben – a webről letöltött minden fájl bekerül, amíg az összméretük el nem ér egy határt. Ha egy ilyen WARC megtelik, akkor a Heritrix nyit egy újat. Minden begyűjtött fájlról készül egy „digitális ujjlenyomat” is. Ennek segítségével sok tárhelyet meg lehet spórolni, mert ha egy fájl már korábban is le lett mentve az archívumba és azóta nem változott meg, vagyis ugyanaz az ujjlenyomata, akkor nem kell újra eltárolni.

A WARC fájlok megtekintéséhez speciális szoftver kell, pusztán egy webböngésző nem elég ehhez. Ezekkel a megjelenítőkkel az is megoldható, hogy ugyanannak a weboldalnak a különböző időpontokban történt mentéseit is megnézzük, mintha egy időgéppel utaznánk előre-hátra. Az I.4 fejezetben már szó volt róla, hogy a web egy bonyolult hipermédia dokumentum, amit többféle szoftver állít elő. Ez az oka annak, hogy a webarchívumok gyakran töredékesek: hiányosak vagy hibásak. A problémák egy része már az archiváláskor keletkezik, mert előfordul, hogy a robot nem talál meg minden linket vagy valamiért nem tudja őket letölteni. Másik részüket pedig a megjelenítő szoftver korlátozott képességei okozzák.


III.3 Az Internet Archive és a Wayback Machine

A világ legnagyobb digitális archívuma, az 1996-ban alapított Internet Archive (IA) San Francisco-ban van. A központjául szolgáló volt templomépületben panorámaképek segítségével távolról is körbe tudunk nézni. Az IA méretei egészen elképesztőek: 2021 július elején 591 milliárd weboldal, 32 millió könyv és egyéb szöveg, 7 millió videó, 13 millió hangfelvétel, 2,2 millió tévéműsor, 725 ezer szoftver (köztük rengeteg régi játék), 3,9 millió kép és 228 ezer koncert volt elérhető 1,1 millió kisebb-nagyobb gyűjteménybe rendezve. Az Internet Archive számítógépein sok magyar tartalom is van. 1996 óta több mint 1 milliárd fájlt gyűjtöttek össze a .hu domén alatt levő webszerverekről, de rengeteg magyar nyelvű, főként régi könyvet is szolgáltatnak.

A webarchívum a web.archive.org oldalon érhető el egy Wayback Machine nevű megjelenítő felületen keresztül. Teljes szövegű keresési lehetőség sajnos nincsen, csak URL cím alapján vagy pedig a keresett weblapra mutató linkek szövege szerint tudunk megtalálni valamit ebben a hatalmas fájlhalmazban. A lementett oldalakban levő linkeket a rendszer automatikusan átalakítja úgy, hogy azok az élő web helyett az archívumon belülre mutassanak, így ugyanúgy tudunk szörfözni a múltbeli interneten, mint ahogy a jelen idejűn szoktunk. Azt viszont figyelembe kell venni, hogy ilyenkor nem pontosan egyszerre készült mentéseket látunk. Ha egy linkre kattintunk, a Wayback Machine igyekszik ugyan időben minél közelebbi példányt előszedni az archívumból, de ha sokáig böngészünk, akkor így is akár hónapokra vagy évekre eltávolodhatunk a kiinduló pont dátumától.


III.4 Az IIPC és a nemzeti webarchívumok

Az Internet Archive létrejötte után sorra indultak el további webarchívumok és egyéb, az internetes tartalmak megőrzésével kapcsolatos projektek könyvtárakban, egyetemeken, kutatóintézetekben stb. Ezek egy része eleve csak korlátozott időre szólt, másokat pedig egy idő után újragondoltak és újraterveztek, így már több második-generációs webarchívummal is lehet találkozni. Jelenleg mintegy 40 nemzeti webarchívum létezik harmincegynéhány országban, mert egyes helyeken a nagyobb nemzetiségeknek külön archívumuk van. Ezek közül érdemes kiemelni a brit, a dán, a portugál, a holland, az amerikai és az ausztrál szolgáltatásokat.

Az internet-archiváló projekteket az International Internet Preservation Consortium (IIPC) nevű nemzetközi szervezet fogja össze 2003 óta, melynek már több mint 45 országból vannak tagjai. 2018 januárjában magyar részről az Országos Széchényi Könyvtár is csatlakozott az IIPC-hez és bekapcsolódott az oktatási munkacsoport tananyagfejlesztő tevékenységébe.


III.5 Az OSZK webarchívuma

Az OSZK-ban 2017-ben indult projekt célja a nyilvános weben található magyar vagy magyar vonatkozású, főként kulturális, oktatási, tudományos vagy közéleti jellegű digitális tartalmak időnkénti lementése, megőrzése és kutathatóvá tétele. Többféle aratást is végzünk:

  • témakörök szerint válogatott honlapok, blogok és egyéb webhelyek (pl. felsőoktatás, tudomány, irodalom, művészetek, vallás, önkormányzatok, közgyűjtemények, kiadók);
  • eseményekkel kapcsolatos weblapok, hírportálok rovatai (pl. olimpiák, választások, járványok);
  • időszaki kiadványok (pl. folyóiratok, magazinok, újságok, híroldalak, diáklapok, hírlevelek);
  • az Országos Széchényi Könyvtár saját online szolgáltatásai (pl. honlapok, blogok, virtuális kiállítások, közösségi oldalak);
  • magyar webtér (évi egy-két mentés a .hu alatti és a külföldi magyar webszerverekről, egyfajta pillanatfelvételként).

2020 végén a beválogatott webhelyek száma kb. 35 ezer, az archívum összmérete 42 terabájt volt. Ez az anyag megőrzési és később majd kutatási célokat szolgál, jogi okokból nem érhető el nyilvánosan. De van egy kisebb gyűjteményünk, amit bárki használhat, sőt javasolhat is archiválásra továbbiakat. Itt a weboldalak szövegében is lehet keresni, többféle megjelenítő programban nézhetők meg a különböző szoftverekkel lementett honlapok és blogok, valamint részletes „katalóguscédulák” is készültek hozzájuk. A teljes archiválási folyamat meglehetősen sok munkafázisból áll.


III.6 A webarchívumok haszna

Sokan csak annyi értelmét látják egy webarchívumnak, hogy ott jó esetben meg lehet találni egy olyan oldalt, amit már az élő weben nem. De ezen túl van még néhány más nagyon hasznos, vagy legalább érdekes lehetőség is:

  • A II.3 fejezetben említett hivatkozhatósági problémára az archívumok jelentik a megoldást. Minden lementett weblap vagy egyéb fájl kap egy stabil URL címet, ami nem változik meg többé, mint ahogy a tartalma sem, így akár egy iskolai dolgozatba, akár egy tudományos cikkbe nyugodtan belinkelhető.
  • Az internetes tartalmak gyűjteményei kiváló alapanyagot jelentenek mindenféle adat- és szövegbányászati kutatás számára, mondjuk gépi tanuláshoz és mesterséges intelligenciák fejlesztéséhez. Történészek, politológusok, szociológusok, nyelvészek, informatikusok és más tudományok művelői tudnak új összefüggéseket kinyerni ezekből az archívumokból. Van is már egy webhistoriográfia nevű új szakterület, ami a történelemtudományi célú kutatásokkal foglalkozik.
  • A nagy tömegű adat és weboldal áttekinthető formára alakítását szolgálja a képi megjelenítés, vagyis a vizualizáció. Ez segítheti az archívum átlátását (pl. grafikonok, megoszlási diagramok) , a böngészést (pl. képernyőfotók, időskálára, illetve térképre vetítés), a kapcsolatok és a tartalom ábrázolását (pl. linkgráfok, címkefelhők) III.6.3, vagy egyszerűen csak művészi hatást kelt.
  • Speciális szolgáltatás lehet a helyreállítás, ami jelentheti a véletlen törlés vagy hackertámadás miatt tönkrement weboldalak vagy webhelyrészek rekonstruálását az archívumban levő utolsó másolatból, vagy akár már régen eltűnt honlapok életre keltését pl. valamilyen évforduló alkalmából vagy egy virtuális kiállításhoz.
  • Egyre több cég szakosodik arra, hogy akár bírósági ügyekben bizonyítékként is elfogadható, hiteles másolatokat szolgáltasson internetes tartalmakról. Ehhez archiváláskor titkosítással, időbélyeggel és digitális aláírással (tanúsítvánnyal) látják el a fájlokat, megakadályozva azok utólagos módosításának lehetőségét.


IV. Személyes archiválás


Bevezető a modulhoz

A modul a magáncélú archiváláshoz szükséges elméleti és gyakorlati ismereteket tárgyalja. Tanácsokat ad egy személyes digitális archívum kialakítására, de felhívja a figyelmet a szerzői jogi korlátok betartására is. Olyan szoftvereket és online szolgáltatásokat ismertet, melyekkel egyenként vagy tömegesen menthetők le webes tartalmak, valamint a fontosabb levelezőrendszerekből és közösségi platformokról a saját anyagaink kiexportálásának lehetőségeit is bemutatja.

Célok, megszerezhető kompetenciák: A modul célja, hogy a tanuló ismerje fel a saját felelősségét a neki vagy környezete számára fontos internetes tartalmak megőrzésében és elsajátítsa azokat a kompetenciákat, amelyekkel ezt (jogszerűen) meg tudja tenni.

Szükséges eszközök, források: Asztali számítógép vagy laptop internet kapcsolattal és webböngészővel. Mobil eszköz Android vagy iOS operációs rendszerrel, wifi vagy mobil internet kapcsolattal.

Feldolgozási idő: 4×45 perc


IV.1 Személyes digitális archívum

A személyes információszervezés nevű, angolul PIM-nek rövidített tudásterületnek hat alapelve van a modern digitális világban való elboldoguláshoz:

  1. találjunk meg mindent,
  2. szűrjünk mindent,
  3. egységesítsünk mindent,
  4. rendszerezzünk mindent,
  5. mentsünk mindent,
  6. védjünk mindent.

Ha kialakítunk magunknak egy olyan digitális környezetet, amiben könnyen megtaláljuk a számunkra fontos információkat, nincs tele érdektelen „szeméttel”, egységes formában és rendszerezve vannak a fájlok és az online források, minden fontos dologról van másolat, és ráadásul védjük is ezeket és a személyes adatainkat az illetéktelenek elől, akkor jeles szintű digitális írástudónak számítunk.

Érdemes végiggondolni, hogy hányféle eszközön, adathordozón, alkalmazásban, internetes tárhelyen, tartalommegosztó oldalon vannak a saját és a családtagjaink által az elmúlt években létrehozott, illetve a másoktól kapott digitális fényképek, videók, üzenetek, elektronikus levelek, szöveges dokumentumok, címek, telefonszámok és más fontos adatok? És hogy ezek mennyire vannak biztonságban, mennyire fog fájni az elvesztésük, ha az adott eszköz, alkalmazás vagy szolgáltatás használhatatlanná, elérhetetlenné válik? Ha szánunk némi időt néha az önarchiválásra, akkor a komolyabb veszteségek megelőzhetők. Ez nemcsak a számítógépünkön, a mobilunkon és egyéb eszközeinken levő fájlokról való biztonsági másolatok készítését jelenti, hanem az internetes felhőben megosztott tartalmaink és más, számunkra fontos online információforrások letöltését is.


IV.2 Jogi kérdések

Az interneten megosztott saját tartalmait természetesen bárki lementheti és felhasználhatja máshol, más formában is, hacsak külön szerződésben kizárólagos jogot nem adott rá például egy kiadónak. Mások anyagainál, legyenek azok szövegek, képek, hangok, videók, levelek vagy akár csak üzenetek, már bonyolultabb a helyzet. A legfontosabb tudnivaló, hogy ha valami nyilvánosan elérhető, az nem jelenti azt, hogy szabadon fel is használható. Vannak szabad licenc alá eső tartalmak, ilyenek például a nyílt forrású szoftverek, a készítőjük halála után 70 évvel közkinccsé vált vagy az általa még életében azzá nyilvánított művek, és a Creative Commons (CC) licenc alatt publikált alkotások. Ezeket bárki felhasználhatja, sőt akár módosíthatja is (kivéve egyes CC licencek esetében) és közzé is teheti, de az eredeti szerzőjüket mindig fel kell tüntetni és lehetőleg a forrást is, ahonnan letöltöttük.

Más esetekben pedig vagy engedélyt kell kérni a jogtulajdonostól, vagy csak a szabad felhasználás formái engedélyezettek. Például saját célra lehet másolatot/mentést készíteni, ha ez nincs kifejezetten megtiltva az adott szolgáltatónál és ha legálisan lett feltöltve oda a tartalom. A lemásolás alól kivételt jelentenek a jogvédett szoftverek, adatbázisok, teljes könyvek és újságok/folyóiratszámok, a nyilvános előadások, a rádió- és tévéműsorok (ha nem set top box-szal rögzítünk). Lehet továbbá idézni indokolt terjedelemben az alkotó nevének és a mű forrásának feltüntetésével. De azt már nem tehetjük meg, hogy szabad licenc vagy szerzői engedély nélküli, nem saját tartalmakat teszünk közzé az interneten akár nyilvánosan, akár zárt körben. Az oktatási intézmények és a könyvtárak esetében a szabad felhasználásnak vannak további formái is, amelyek akár teljes művekre is kiterjedhetnek bizonyos feltételekkel.

Érdekes kérdés, hogy mi lesz az interneten levő saját tartalmainkkal a halálunk után? 2016 novemberében a Facebook egy programhiba miatt kb. kétmillió emberrel (köztük az alapító Mark Zuckerberggel) és ismerőseikkel közölte, hogy elhaláloztak. Ebből elég nagy botrány lett és utána megindult egy folyamat, hogy a közösségi platformok és egyéb internetes szolgáltatók alakítsanak ki valamilyen korrekt eljárást arra az esetre, amikor tényleg meghal valaki. A legtöbb helyen már megadható egy vagy több személy elérhetősége, aki ilyen esetben jogosult intézkedni a digitális hagyaték felett és lementeni azt. Például a Google szolgáltatásoknál ezt a myaccount.google.com/inactive oldalon lehet beállítani.


IV.3 Igény szerint archiváló szolgáltatások

Ha egy-egy weboldalt vagy az interneten levő egyéb fájlt szeretnénk későbbi felhasználás céljából biztonságba helyezni, akkor erre a legegyszerűbb megoldást az igény szerint archiváló (archive-on-demand) szolgáltatások jelentik, amelyek egy felhőtárhelyre eltesznek róluk egy másolatot. A Firefox böngészőben levő Pocket funkció egy elég primitív megoldása ennek. Az URL címsor melletti lenyíló menüre vagy a Pocket ikonra kattintva menthetjük el az éppen nézett weboldal szövegét olvasási nézetben, ami a Firefox vagy Google fiókunkhoz kötött tárterületre kerül (app.getpocket.com). A mentések szinkronizálódnak a különböző eszközeink között, címkézhetők és megoszthatók, de hosszú távú megőrzést csak a fizetős változat biztosít.

A Save Page Now a III.3 fejezetben ismertetett Wayback Machine oldalon levő funkció, ahol megadhatunk egy URL címet és az ott található weboldalt vagy más fájlt a rendszer azonnal archiválja (ha nincs ennek valamilyen technikai akadálya), majd visszaad egy dátummal ellátott URL-t, ami a mentett verzióra mutat. Ezt máris megoszthatjuk másokkal is, de egy idő után a Wayback Machine-ban mindenki számára elérhető lesz a mentés. Androidos app is van hozzá, ami beépül a mobil böngésző „Megosztás” funkciójába.

Hasonló szolgáltatást nyújt az archive.today, amellyel szintén egy URL-t megadva, vagy az oldalon levő könyvjelző-alkalmazást (bookmarklet) a könyvjelzősávra áthúzva, majd bármikor rákattintva menthetünk el egy weblapot. Ez a rendszer egy – elég rossz minőségű – képernyőfotót is készít az oldalról, és azt is lehetővé teszi, hogy egy ZIP csomagban letöltsük a gépünkre a mentett weboldalt és az azt alkotó egyéb fájlokat.

A Mink egy Chrome bővítmény, ami automatikusan lekérdez néhány nagy webarchívumot, hogy az éppen nézett weboldalról vannak-e és ha igen, akkor mikori mentések, majd ezek megtekintését egy lenyíló listában felajánlja. Az „Archive Page To…” gomb megnyomásával pedig kezdeményezhetjük az oldal azonnali megőrzését az Internet Archive, vagy az archive.today, vagy pedig a WebCite szolgáltatással, de akár egyszerre mindhárom webarchívumba is elmenthetjük azt.


IV.4 Egyedi weboldalak mentése

Windows alatt a Chrome és a Firefox böngészőkben a Ctrl+S gomb megnyomásával menthetjük el a gépünkre az éppen nézett weboldalt teljes egészében, vagy csak HTML fájlként. Utóbbi esetben a képek és az oldal egyéb elemei nem lesznek eltárolva, sőt a szöveg külalakja is széteshet. Úgyhogy érdemesebb inkább a teljes formátumot választani, de ilyenkor figyelni kell arra, hogy a Chrome egy „_files”, a Firefox pedig egy „_elemei” végződésű mappát is csinál a „.html” kiterjesztésű fájl mellé és azt is le kell másolnunk, ha egy másik eszközre akarjuk áttenni vagy oda akarjuk adni valakinek a mentett verziót. Vagy pedig tegyük fel a Save Page WE kiegészítőt, amivel egyetlen (bár néha nagyon nagy) HTML fájlba tudjuk menteni a weboldal minden elemét.

A másik lehetőség, hogy képként mentünk el egy weblapot. Ez is csak egyetlen fájl lesz és így könnyen másolható vagy megosztható, de persze keresni nem lehet rajta és a linkek sem kattinthatók. A Firefox-ban van egy „Készítsen képernyőképet” menüpont, ami az URL címet mutató sor végén levő három pont ikonra kattintva vagy a Ctrl+Shift+S gombok megnyomásával hívható elő. Ezzel nemcsak az éppen látható vagy az általunk kijelölt részről, hanem a teljes weboldalról is tudunk egy PNG formátumú képet csinálni.

Hasonló, de a nagyobb méretű vagy trükkösebb weboldalakkal is elboldoguló és plusz funkciókat is tartalmazó oldalképkészítő a Nimbus Capture, amit Firefox és Chrome böngészőhöz is telepíthetünk. Úgy működik, mint a billentyűzeten levő Print Screen gomb, de automatikusan végiglapozza az éppen nézett weboldalt és összefűzi az egyes képernyődarabokat egy PNG vagy JPG képpé, amit azután még szerkeszthetünk is, majd feltölthetjük egy felhőtárhelyre vagy lementhetjük a gépünkre.


IV.5 Médiafájlok letöltése

Amikor csak egy-egy képet akarunk elmenteni, akkor a képre jobb egérgombbal kattintva a „Kép mentése másként…” vagy „Kép mentése más néven…” menüponttal tudjuk ezt megtenni. Ha viszont szeretnénk egy egész albumot, vagy egy képkereső találati listáját, vagy bármilyen egyéb weboldal összes képét egyszerre letölteni, akkor ehhez már egy böngészőkiegészítőt kell telepíteni. Chrome-hoz például az Image Downloader-t, aminél beállíthatjuk a letöltendő képek maximális méretét, szűrhetjük őket URL-ek szerint, és azt is kérhetjük, hogy a linkekkel hivatkozott képeket is töltse le, ne csak az adott oldalon levőket.

Firefoxhoz az egyik legjobb ilyen beépülő modul a Download All Images, ami még több lehetőséget kínál: például hogy az összes képet eleve egy ZIP csomagba teszi, vagy hogy akár három szintig is követi a linkeket és azokról a weboldalakról is begyűjti a képeket. Ezzel a beállítással nagyon óvatosnak kell lenni, mert így akár több ezer fájlt is le tudunk tölteni egyetlen kattintással, úgyhogy érdemes szűrőfeltételeket is beállítani.

A képek mellett videókat és hangfelvételeket – akár sugárzott (stream) formájúakat is – tölthetünk le a Video DownloadHelper nevű Firefox és Chrome modullal, sőt át is alakíthatjuk őket más formátumokra. De ehhez még egy kiegészítőt kell telepíteni és ha azt szeretnénk, ne legyen QR kód a konvertált verzión, akkor a fizetős verzióra kell átváltani. A programhoz tartozó YouTube videó jó áttekintést nyújt a szoftver sokféle felhasználási lehetőségéről. A youtube-dl program szintén képes számos videóforrásból különféle formátumokba menteni. Hátránya, hogy csak parancsmódban lehet használni, de külön programként telepíthetünk hozzá grafikus felületet is.


IV.6 Weboldalak tömeges letöltése

A böngészőkiegészítőkön kívül többféle ingyenes webhely-letöltő program is létezik. Ezek a III.2 fejezetben ismertetett robotot futtatnak, így nemcsak egyedi oldalak, hanem teljes webhelyek vagy azok kijelölt részei is lementhetők velük. A HTTrack az egyik legrégibb és legjobb ilyen ingyenes szoftver, melynek magyarított felülete is van. Számos paraméterezési lehetőséget biztosít, így jól szabályozható vele, hogy a kiindulásként megadott URL címről elindulva milyen mélységig kövesse a linkeket, milyen típusú fájlokat töltsön le és milyeneket ne, egyszerre hány szálon és milyen sebességgel történjen a mentés, melyik mappába tegye a letöltött fájlokat stb. Nincs megjelenítő felület benne, de minden mentéshez csinál egy HTML kezdőlapot, amit a gépünkön levő böngészők valamelyikével megnyitva átkerülünk a mentett verzió nyitóoldalára.

A WAIL haladóknak szánt, de szintén elsősorban személyes webarchiválásra szolgáló szoftver. WARC formátumba ment, ezért egy intézményi archívumnál is hasznos eszköz lehet, mivel ugyanazt a Heritrix aratószoftvert használja, mint a nagy professzionális rendszerek. 2017-ben a Chrome motorját is beleépítette a fejlesztője, így a „Page…” kezdetű beállítások esetében a weboldalak letöltése valójában a böngészőn keresztül történik, amivel a mai, programmal generált, bonyolult felépítésű weboldalak jobb minőségben menthetők, mint a Heritrix-szel. Az egyes aratások részgyűjteményekbe szervezhetők és később is újramenthetők. A WARC fájlok a Dokumentumok/ nevű Windows mappánkba kerülnek és visszanézhetők a WAIL-be beépített Wayback megjelenítővel.

A sok interaktív funkciót és médiaelemet tartalmazó modern weboldalak megőrzésére kidolgozott megoldás az ArchiveWeb.page, aminek van Windows alá telepíthető, Chrome böngészőbe beépíthető, illetve online változata is (Conifer), és egy ReplayWeb.page nevű lejátszó is tartozik hozzá. Úgy működik, mint egy videomagnó: amikor megnyomjuk a „felvétel” gombot, elkezdi rögzíteni a böngészési folyamatot, lement mindent, amit megnézünk a weben, sőt, ha az Autopilot funkciót bekapcsoljuk, akkor magától végiglapozza az oldalt. A mentéseket gyűjteményekbe szervezhetjük, megoszthatjuk másokkal, letölthetjük WARC formátumban offline böngészéshez, vagy beküldhetjük őket egy webarchívumba.


IV.7 Levelezés mentése

Magáncélra a legtöbb ember valamilyen ingyenes levelezőrendszert használ, mint amilyen a Gmail, a Freemail, vagy az Indamail. Asztali gépekről egy webes felületen keresztül szokás ezeket használni, a levelek pedig a szolgáltató szerverén tárolódnak. Ahhoz, hogy legyen egy saját példányunk is a küldött és kapott leveleinkről, két megoldás közül választhatunk. Az egyik lehetőség, hogy telepítünk egy levelezőt a gépünkre, például az ingyenes Thunderbird programot, aminél beállítjuk a postafiókunk adatait és azt, hogy minden levelet töltsön le a gépünkre és hagyja meg ezeket a felhőben is, vagy pedig törölje őket onnan. A szükséges beállításokat a szolgáltatók honlapján levő súgóban lehet megnézni, a POP vagy az IMAP szavakra keresve.

A másik módszer a levelek időnkénti exportálása, amire nem minden szolgáltató ad lehetőséget, de a Google például igen, bár ez nem a Gmail kezelőfelületéről érhető el. Ha szeretnénk az összes levelünket vagy csak egy adott kategóriába sorolt részüket lementeni, akkor a Google Takeout oldalra kell belépnünk, ahonnan az összes Google szolgáltatásból (pl. Drive, Naptár, Fotók, Könyvek, Zene, YouTube, Gmail) lemásolhatjuk a saját anyagainkat. Először a „Kijelölések megszüntetése” linkre kell kattintani, majd az „E-mail” felirat melletti négyzetet kipipálni és kiválasztani a letöltendő kategóriákat, ha nem az egész postaládánkat akarjuk lementeni. Az oldal alján tudunk továbblépni és itt még azt kell eldöntenünk, hogy levélben kérjük-e a letöltési linket, vagy csak valamelyik felhőtárhelyre akarjuk feltenni ezt a biztonsági másolatot. Ütemezést is beállíthatunk, hogy egy évig kéthavonta automatikusan csináljon ilyen mentést a Gmail. A leveleinket .mbox végződésű, más levelezőrendszerekbe is betölthető szövegfájlokban kapjuk meg, egy rövid tájékoztatóval egybecsomagolva.

A Gmail-es névjegyzékünket szintén a Takeout-tal exportálhatjuk, de a contacts.google.com oldalon is megtehetjük úgy, hogy először csak az első személy neve mellett pipáljuk ki a kis négyzetet, majd a fölötte megjelenő menüből kiválasztjuk a „Mind” opciót. Utána a „További műveletek” (függőleges három pont) menüben az „Exportálás”-t kell kérni. A mentés formátuma lehet Excelbe betölthető CSV, vagy levelezőprogramokba importálható VCF szövegfájl. Androidos eszközökön a Névjegyek alkalmazást feltelepítve tudjuk kimenteni a levelezőpartnereink adatait a Beállítások/Exportálás menü alatt egy contacts.vcf nevű fájlba.

A MailStore program szintén lehetővé teszi a leveleink mentését és visszaállítását. Kompatibilis az összes fontos levelezőprogrammal és online szolgáltatással. A mentett anyagban teljes szövegű visszakeresést is biztosít. Fel lehet telepíteni a számítógépünkre, de használható portable módban is, egy pendrive-ról futtatva. A Home verzió használata magán célra ingyenes. A program magyar nyelvű kezelőfelülettel is rendelkezik.


IV.8 Felhőszolgáltatásokból való exportálás

A Google Takeout-hoz hasonló lehetőséget a legtöbb nagy platform biztosít ma már. Érdemes erre rákeresni a használati útmutatóikban és időnként egy biztonsági mentést csinálni legalább azokról az anyagainkról, amelyeket sajnálnánk, ha elvesznének. Bár ezeknél az óriáscégeknél igen komoly számítástechnikai háttér van, így a tárolóeszközök meghibásodása miatti adatvesztés valószínűsége kicsi, de az bármikor megtörténhet, hogy tévedésből mi magunk törlünk ki mondjuk egy egész albumot egyetlen kép helyett, vagy feltörik a fiókunkat és többé nem férünk hozzá a fájljainkhoz, vagy pedig egy elhunyt családtagunk digitális hagyatékát nekünk kell kezelni. És arra is volt már számos példa, hogy sok millió ember által használt szolgáltatások bezártak. Igaz, ilyenkor előre értesítik a felhasználóikat és tájékoztatják őket arról, hogy hogyan tudnak kiköltözni az adott rendszerből és átvinni az adataikat egy másikba, vagy legalább lementeni azokat.

A Facebook esetében a fiók beállításai között „A Facebook-adataid” oldalon a „Saját információ letöltése” feliratra kattintva indíthatjuk a mentést. Egy hosszú listában válogathatjuk ki, hogy melyek azok az adatok és fájlok, amiket szeretnénk a letöltési csomagba beletenni, ami igen tekintélyes méretű lehet, ha aktívak voltunk ezen a közösségi felületen, illetve a Messengeren. A csomag elkészültéről és helyéről a Facebook oldalunkon értesítést kapunk, de egy levelet is küld a rendszer. A .zip fájlban alkönyvtárakba rendezve vannak a dolgaink és egy index.html nevű weblapon pedig a tartalomjegyzék.

A Twitter a „Beállítások/Fiók” almenüben a „Twitteres adataid” oldalon biztosít letöltési lehetőséget. Válogatni nem tudunk és csak havonta egyszer élhetünk ezzel a lehetőséggel. Itt is egy ZIP csomagot menthetünk el, benne egy README.txt útmutatóval, melynek elkészültéről és URL címéről e-mailben értesít a Twitter.

Az instás dolgainkat a „Profil módosítása/Adatvédelem és biztonság” aloldalon az „Adatok letöltése” funkcióval menthetjük le. Az Instagram a csomagba beleteszi az összes fényképet, hozzászólást, profiladatot, korábbi tevékenységeinket. (Utóbbiakat programok számára értelmezhető „.json” szövegfájlok formájában.) Az értesítés levélben jön és akár 2 napot is kell rá várni, ha nagy mennyiségű fotónk van az Instagramon. A letöltési link pedig csak 4 napig érvényes.

A Skype-on velünk megosztott fájlok 30 napig maradnak a felhőben, ha addig nem mentjük le őket egyenként vagy a secure.skype.com/hu/data-export oldalon egyszerre, akkor elvesznek. Ugyanitt a korábbi írásos csevegéseink szövegét is lekérhetjük. A Skype egy „.tar” végződésű csomagot készít, amit csak Commanderrel lehet kibontani és a benne levő fájlok eredeti neveit pedig „.json” formátumban mellékeli, így elég nehéz megtalálni köztük valamit. Az üzeneteink egy „messages.json” állományban vannak, ennek olvasásához még egy fájlt le kell tölteni a go.skype.com/skype-parser címről.

Természetesen ezek a közösségi platformok csak a saját anyagaink egyszerre való letöltését engedik meg, más felhasználók tartalmait nem tudjuk így elmenteni, és a III.2. fejezetben szereplő robotok sem boldogulnak ezeken a felületeken, a Webrecorder kivételével, de ott nekünk is be kell segítenünk, hogy mit töltsön le a szoftver. Vannak azért olyan eszközök, amikkel a közösségi média bizonyos részei automatikusan menthetők, például a regisztráció nélkül és bizonyos korlátozásokkal ingyenesen is használható Export Comments. Itt egy Facebook, Instagram vagy Twitter oldal nyilvános kommentjeit tölthetjük le egy .csv fájlként, ami utána Excelben rendezhető, kielemezhető.


IV.9 Mobil eszközökkel való archiválás

Természetesen mobil eszközökre is vannak weboldal archiváló és fájlletöltő alkalmazások, hiszen sokak számára már a telefon vagy a táblagép az elsődleges internetező eszköz. Ezeknél a kisebb tárhelyet és a lassú vagy korlátozott mobil internet kapcsolatot figyelembe kell azért venni, komolyabb személyes archívumhoz nem jók. Viszont az nagyon hasznos tud lenni, hogy amikor wifi közelben vagyunk, akkor lementünk fontos oldalakat, melyeket később internet kapcsolat nélküli helyeken is tudunk használni. A mobil böngészőkben általában van valamilyen „letöltés”, „mentés” vagy „offline olvasás” nevű menüpont, amivel ezt megtehetjük. A mentett weblap többnyire MHTML formátumban tárolódik, ami egyetlen nagy HTML fájl, melybe bele van kódolva az oldalt alkotó összes elem (szöveg, kép, betűtípus, stíluslap stb.).

Androidos készülékekhez az egyik legjobb weboldal archiváló és rendszerező alkalmazás a Save Web Page. Van benne egy saját webböngésző, de más böngészőkből is aktiválható a menüből vagy a „Megosztás” funkcióból. A mentésnél MHTML vagy JPG formátum választható, a fájlok mappákba rendezhetők, kereshetők és egy csomagban Google Drive-ra vagy SD kártyára exportálhatók, majd onnan más eszközre átvihetők. A JPG képként való mentés kivételével nagyon hasonló funkciókat kínál a Save as Web Archive app is.

A GetThemAll egy általános fájlletöltő program szintén Androidra. Ez is egy böngészővel van összeépítve. Az abban megnyitott weboldalakból a GTA kigyűjti a médiafájlokat, majd letölti azokat, amiket kijelöltünk közülük. A mentések felküldhetők a Google Drive-ra vagy wifin keresztül átvihetők egy PC-re a GetThemAll Receiver programmal. Még több lehetőséget tartalmaz az IDM, vagyis az Internet Download Manager, amihez egy oktatóvideó is tartozik. Nemcsak fájlokat, hanem teljes weblapokat is lementhetünk vele, az URL címeket egy szövegfájlban is megadhatjuk, a letöltések több szálon és kikapcsolt képernyőnél is futnak, sőt a fizetős verziónál ütemezhetők is. (YouTube videókkal nem érdemes próbálkozni egyik programban sem, mert a YouTube letöltők ki vannak tiltva a Play áruházból.)

iPhone és iPad készülékekre a Documents by Readdle a legjobb ingyenes dokumentumkezelő, -letöltő és -megjelenítő alkalmazás. Sokféle szöveg- és médiatípussal elboldogul, és a beépített böngészőjén keresztül weboldalakat is le lehet menteni HTML, PDF és Webarchive formátumban. Utóbbi az Apple eszközökön népszerű Safari böngészővel megnyitható konténer, ami egyetlen, „.webarchive” kiterjesztésű fájlban tárolja a weblap összes elemét.

A IV.3 fejezetben már említett Pocket szolgáltatásnak van iOS-es verziója is, ami a Safariba épül be és szintén Webarchive vagy PDF formátumban tárolja a letöltött weblapokat offline olvasáshoz vagy felolvastatáshoz. A fizetős változat hosszú távú megőrzést és teljes szövegű keresést is biztosít. A WebShot egy kínai fejlesztésű app, de angol és töredékes magyar fordítás is van hozzá. Nagy méretű weboldalakról is jó minőségű oldalképet lehet vele készíteni, közvetlenül a Safari vagy más iOS-alapú böngészőből. A képek szerkeszthetők, vízjelezhetők, megoszthatók és PDF-re konvertálhatók.

Az iRetro a legkülönlegesebb az ebben a fejezetben bemutatott mobil alkalmazások közül. Az Internet Archive-ban levő régi weboldalakat nézegethetjük vele, ha megadunk egy URL címet és egy dátumot. Amúgy az élő webhez is használható, mert egy mai, modern böngészőprogram, csak éppen a külalakja olyan, mintha még a kilencvenes években tervezték volna a Windows 95-höz tartozó Internet Explorer mintájára.