„UKWA (brit)” változatai közötti eltérés
1. sor: | 1. sor: | ||
= (UK Web Archive) = |
= (UK Web Archive) = |
||
− | A 2004-ben alakult [[UKWAC]] együttműködés keretében létrejött brit webarchívum. Szelektív archiválással kezdtek, egyedi engedélyeket kérve egészen 2013-ig, a kötelespéldány törvény kiterjesztésig. Kezdetben a [[PANDAS]] és a [[HTTrack]] szoftvereket használták, de 2008-tól már a [[WCT]]-[[Heritrix]] párossal dolgoztak, jelenleg a Heritrix mellé a MAPReduce fejlesztés alatt álló saját rendszerük társul, az indexelést OutbackCDX segítségével látják el. 2008-ban 2,769 webhelyet (kevesebb, mint 2 terabájtot) mentettek le, tematikus és esemény-alapú válogatással. Az alacsony számok magyarázata részben a betanulási időszak és a PANDAS problémái, részben az alacsony válaszadási arány (2008-ban 6609 kiválasztott site-tól 7,476 engedélyt kértek, de csak 1,872 jött meg, 51 elutasítás mellett). 2013-ra már 13,500 webhely (61,900 [[instance]]) volt az archívumban. A 2017 áprilisi adatok: 15,112 website (79,276 [[instance]]), 28 terabájtnyi adat. Az anyagot előbb egy külső cég (Magus Research Ltd.) hostolta, majd a University of London Computing Centre, végül átkerült a British Library digitális objektumkezelő rendszerébe. A szolgáltatás nyilvános és a visszakereshetőség mellett különböző plusz funkciók, statisztikai elemző és vizualizációs megoldások is kapcsolódnak hozzá. A visszakereséshez [[OpenWayback]], [[ |
+ | A 2004-ben alakult [[UKWAC]] együttműködés keretében létrejött brit webarchívum. Szelektív archiválással kezdtek, egyedi engedélyeket kérve egészen 2013-ig, a kötelespéldány törvény kiterjesztésig. Kezdetben a [[PANDAS]] és a [[HTTrack]] szoftvereket használták, de 2008-tól már a [[WCT]]-[[Heritrix]] párossal dolgoztak, jelenleg a Heritrix mellé a MAPReduce fejlesztés alatt álló saját rendszerük társul, az indexelést OutbackCDX segítségével látják el. 2008-ban 2,769 webhelyet (kevesebb, mint 2 terabájtot) mentettek le, tematikus és esemény-alapú válogatással. Az alacsony számok magyarázata részben a betanulási időszak és a PANDAS problémái, részben az alacsony válaszadási arány (2008-ban 6609 kiválasztott site-tól 7,476 engedélyt kértek, de csak 1,872 jött meg, 51 elutasítás mellett). 2013-ra már 13,500 webhely (61,900 [[instance]]) volt az archívumban. A 2017 áprilisi adatok: 15,112 website (79,276 [[instance]]), 28 terabájtnyi adat. Az anyagot előbb egy külső cég (Magus Research Ltd.) hostolta, majd a University of London Computing Centre, végül átkerült a British Library digitális objektumkezelő rendszerébe. A szolgáltatás nyilvános és a visszakereshetőség mellett különböző plusz funkciók, statisztikai elemző és vizualizációs megoldások is kapcsolódnak hozzá. A visszakereséshez [[OpenWayback]], [[PyWb]] és [[Solr]] szoftvereket használnak. |
Az amerikai [[Internet Archive]] és a brit JISC (Joint Information Systems Committee) partneri kapcsolatának köszönhetően 1996-tól 2010-ig, majd 2011-től 2013-ig (egy 32 és egy 26 terabájtos csomagban [[WARC]] fájlokként) megkapták az IA-tól azt a részhalmazt, amely az Egyesült Királyság webhelyeinek anyaga (UK Web Domain Dataset). 2013-tól pedig saját maguk aratják az .uk domaint (Non-Print Legal Deposit UK Web Archive). Mindkét archívum jelenleg csak helyben használható a kötelespéldány törvény alá tartozó hat brit könyvtárban, de vizsgálják, hogy hogyan lehetne belőlük nyilvánossá tehető tartalmakat kinyerni. |
Az amerikai [[Internet Archive]] és a brit JISC (Joint Information Systems Committee) partneri kapcsolatának köszönhetően 1996-tól 2010-ig, majd 2011-től 2013-ig (egy 32 és egy 26 terabájtos csomagban [[WARC]] fájlokként) megkapták az IA-tól azt a részhalmazt, amely az Egyesült Királyság webhelyeinek anyaga (UK Web Domain Dataset). 2013-tól pedig saját maguk aratják az .uk domaint (Non-Print Legal Deposit UK Web Archive). Mindkét archívum jelenleg csak helyben használható a kötelespéldány törvény alá tartozó hat brit könyvtárban, de vizsgálják, hogy hogyan lehetne belőlük nyilvánossá tehető tartalmakat kinyerni. |
A lap 2020. október 12., 12:01-kori változata
(UK Web Archive)
A 2004-ben alakult UKWAC együttműködés keretében létrejött brit webarchívum. Szelektív archiválással kezdtek, egyedi engedélyeket kérve egészen 2013-ig, a kötelespéldány törvény kiterjesztésig. Kezdetben a PANDAS és a HTTrack szoftvereket használták, de 2008-tól már a WCT-Heritrix párossal dolgoztak, jelenleg a Heritrix mellé a MAPReduce fejlesztés alatt álló saját rendszerük társul, az indexelést OutbackCDX segítségével látják el. 2008-ban 2,769 webhelyet (kevesebb, mint 2 terabájtot) mentettek le, tematikus és esemény-alapú válogatással. Az alacsony számok magyarázata részben a betanulási időszak és a PANDAS problémái, részben az alacsony válaszadási arány (2008-ban 6609 kiválasztott site-tól 7,476 engedélyt kértek, de csak 1,872 jött meg, 51 elutasítás mellett). 2013-ra már 13,500 webhely (61,900 instance) volt az archívumban. A 2017 áprilisi adatok: 15,112 website (79,276 instance), 28 terabájtnyi adat. Az anyagot előbb egy külső cég (Magus Research Ltd.) hostolta, majd a University of London Computing Centre, végül átkerült a British Library digitális objektumkezelő rendszerébe. A szolgáltatás nyilvános és a visszakereshetőség mellett különböző plusz funkciók, statisztikai elemző és vizualizációs megoldások is kapcsolódnak hozzá. A visszakereséshez OpenWayback, PyWb és Solr szoftvereket használnak.
Az amerikai Internet Archive és a brit JISC (Joint Information Systems Committee) partneri kapcsolatának köszönhetően 1996-tól 2010-ig, majd 2011-től 2013-ig (egy 32 és egy 26 terabájtos csomagban WARC fájlokként) megkapták az IA-tól azt a részhalmazt, amely az Egyesült Királyság webhelyeinek anyaga (UK Web Domain Dataset). 2013-tól pedig saját maguk aratják az .uk domaint (Non-Print Legal Deposit UK Web Archive). Mindkét archívum jelenleg csak helyben használható a kötelespéldány törvény alá tartozó hat brit könyvtárban, de vizsgálják, hogy hogyan lehetne belőlük nyilvánossá tehető tartalmakat kinyerni.
A British Library három webarchívumában 2015-ben 8 millió mentés volt, több mint 160 terabájt méretben (tömörített tárolással). Egy 2017 júniusi előadás szerint a teljes méret már 400 terabájt.