„Arquivo.pt (portugál)” változatai közötti eltérés
1. sor: | 1. sor: | ||
A portugál webarchívumot az FCCN (kb. az ottani NIIF) üzemelteti 2007-től. Az előzmények 2001-ig nyúlnak vissza, amikor egy tumba! nevű webes keresőt fejlesztett a lisszaboni egyetem egy munkacsoportja az FCCN támogatásával. Az ezzel a robottal 2002-2006 között gyűjtött anyagra épült a Tomba nevű prototípus archívum. Ennek a tapasztalatai alapján - de egy új technológiával - kezdték el az üzemszerű archívumot, és átvették bele a Tomba mellett a portugál nemzeti könyvtár RECOLHA nevű 2005-ös projektjének anyagát, néhány magángyűjteményt és az [[Internet Archive]]-ból a .pt domain 1996 és 2007 közötti halmazát (utóbbi 124 millió fáj, 1,9 terabájt volt). Az első teljes aratást 2008-ban indították (jelenleg évente 3-4 alkalommal futtatják, 7 nap alatt 90%-kal készen vannak, de lekorlátozzák a [[crawler]]t mélység, követett linkek száma és letöltött mennyiség szerint). 400 online kiadványt pedig naponta mentenek. E mellett eseményeket külön is archiválnak (pl. választások) és válogatnak külföldi szerverekről is portugál tartalmat. |
A portugál webarchívumot az FCCN (kb. az ottani NIIF) üzemelteti 2007-től. Az előzmények 2001-ig nyúlnak vissza, amikor egy tumba! nevű webes keresőt fejlesztett a lisszaboni egyetem egy munkacsoportja az FCCN támogatásával. Az ezzel a robottal 2002-2006 között gyűjtött anyagra épült a Tomba nevű prototípus archívum. Ennek a tapasztalatai alapján - de egy új technológiával - kezdték el az üzemszerű archívumot, és átvették bele a Tomba mellett a portugál nemzeti könyvtár RECOLHA nevű 2005-ös projektjének anyagát, néhány magángyűjteményt és az [[Internet Archive]]-ból a .pt domain 1996 és 2007 közötti halmazát (utóbbi 124 millió fáj, 1,9 terabájt volt). Az első teljes aratást 2008-ban indították (jelenleg évente 3-4 alkalommal futtatják, 7 nap alatt 90%-kal készen vannak, de lekorlátozzák a [[crawler]]t mélység, követett linkek száma és letöltött mennyiség szerint). 400 online kiadványt pedig naponta mentenek. E mellett eseményeket külön is archiválnak (pl. választások) és válogatnak külföldi szerverekről is portugál tartalmat. |
||
− | 2016 végén a teljes archívum (tömörített) mérete 151 terabájt volt (3,7 milliárd fájl). 85 szerver (1.328 vCPU) dolgozik egyszerre 11,5 terabájt RAM-mal, 1.2 petabájt háttértárral. A felhasznált open source szoftverek (pl. [[Heritrix]]) mellett rengeteg saját kódot is írtak különböző részfeladatokra (pl. a magánarchívumoktól kapott [[HTTrack]] mentéseket [[ARC]] fájlokká konvertáló [[ |
+ | 2016 végén a teljes archívum (tömörített) mérete 151 terabájt volt (3,7 milliárd fájl). 85 szerver (1.328 vCPU) dolgozik egyszerre 11,5 terabájt RAM-mal, 1.2 petabájt háttértárral. A felhasznált open source szoftverek (pl. [[Heritrix]]) mellett rengeteg saját kódot is írtak különböző részfeladatokra (pl. a magánarchívumoktól kapott [[HTTrack]] mentéseket [[ARC]] fájlokká konvertáló [[HTTrack2ARC]]-ot), és egy WAIR nevű teszt gyűjteményt is felállítottak kutatási és fejlesztési célra. A keresőfelület első verziója 2010-ben készült el, de csak 2012-től lett nyilvános. 2014-2015-ben jelentősen továbbfejlesztették a rendszert (Google-szerű teljes szövegű keresője van és egy saját, fejlett megjelenítő felülete). Az archívum az OpenSearch protokollt használva API-n keresztül is lekérdezhető, az eredményeket RSS 2.0 (XML) formátumban adják vissza. |
---- |
---- |
A lap jelenlegi, 2017. július 25., 20:03-kori változata
A portugál webarchívumot az FCCN (kb. az ottani NIIF) üzemelteti 2007-től. Az előzmények 2001-ig nyúlnak vissza, amikor egy tumba! nevű webes keresőt fejlesztett a lisszaboni egyetem egy munkacsoportja az FCCN támogatásával. Az ezzel a robottal 2002-2006 között gyűjtött anyagra épült a Tomba nevű prototípus archívum. Ennek a tapasztalatai alapján - de egy új technológiával - kezdték el az üzemszerű archívumot, és átvették bele a Tomba mellett a portugál nemzeti könyvtár RECOLHA nevű 2005-ös projektjének anyagát, néhány magángyűjteményt és az Internet Archive-ból a .pt domain 1996 és 2007 közötti halmazát (utóbbi 124 millió fáj, 1,9 terabájt volt). Az első teljes aratást 2008-ban indították (jelenleg évente 3-4 alkalommal futtatják, 7 nap alatt 90%-kal készen vannak, de lekorlátozzák a crawlert mélység, követett linkek száma és letöltött mennyiség szerint). 400 online kiadványt pedig naponta mentenek. E mellett eseményeket külön is archiválnak (pl. választások) és válogatnak külföldi szerverekről is portugál tartalmat.
2016 végén a teljes archívum (tömörített) mérete 151 terabájt volt (3,7 milliárd fájl). 85 szerver (1.328 vCPU) dolgozik egyszerre 11,5 terabájt RAM-mal, 1.2 petabájt háttértárral. A felhasznált open source szoftverek (pl. Heritrix) mellett rengeteg saját kódot is írtak különböző részfeladatokra (pl. a magánarchívumoktól kapott HTTrack mentéseket ARC fájlokká konvertáló HTTrack2ARC-ot), és egy WAIR nevű teszt gyűjteményt is felállítottak kutatási és fejlesztési célra. A keresőfelület első verziója 2010-ben készült el, de csak 2012-től lett nyilvános. 2014-2015-ben jelentősen továbbfejlesztették a rendszert (Google-szerű teljes szövegű keresője van és egy saját, fejlett megjelenítő felülete). Az archívum az OpenSearch protokollt használva API-n keresztül is lekérdezhető, az eredményeket RSS 2.0 (XML) formátumban adják vissza.