Arquivo.pt (portugál)

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2017. július 25., 20:03-kor történt szerkesztése után volt.
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

A portugál webarchívumot az FCCN (kb. az ottani NIIF) üzemelteti 2007-től. Az előzmények 2001-ig nyúlnak vissza, amikor egy tumba! nevű webes keresőt fejlesztett a lisszaboni egyetem egy munkacsoportja az FCCN támogatásával. Az ezzel a robottal 2002-2006 között gyűjtött anyagra épült a Tomba nevű prototípus archívum. Ennek a tapasztalatai alapján - de egy új technológiával - kezdték el az üzemszerű archívumot, és átvették bele a Tomba mellett a portugál nemzeti könyvtár RECOLHA nevű 2005-ös projektjének anyagát, néhány magángyűjteményt és az Internet Archive-ból a .pt domain 1996 és 2007 közötti halmazát (utóbbi 124 millió fáj, 1,9 terabájt volt). Az első teljes aratást 2008-ban indították (jelenleg évente 3-4 alkalommal futtatják, 7 nap alatt 90%-kal készen vannak, de lekorlátozzák a crawlert mélység, követett linkek száma és letöltött mennyiség szerint). 400 online kiadványt pedig naponta mentenek. E mellett eseményeket külön is archiválnak (pl. választások) és válogatnak külföldi szerverekről is portugál tartalmat.

2016 végén a teljes archívum (tömörített) mérete 151 terabájt volt (3,7 milliárd fájl). 85 szerver (1.328 vCPU) dolgozik egyszerre 11,5 terabájt RAM-mal, 1.2 petabájt háttértárral. A felhasznált open source szoftverek (pl. Heritrix) mellett rengeteg saját kódot is írtak különböző részfeladatokra (pl. a magánarchívumoktól kapott HTTrack mentéseket ARC fájlokká konvertáló HTTrack2ARC-ot), és egy WAIR nevű teszt gyűjteményt is felállítottak kutatási és fejlesztési célra. A keresőfelület első verziója 2010-ben készült el, de csak 2012-től lett nyilvános. 2014-2015-ben jelentősen továbbfejlesztették a rendszert (Google-szerű teljes szövegű keresője van és egy saját, fejlett megjelenítő felülete). Az archívum az OpenSearch protokollt használva API-n keresztül is lekérdezhető, az eredményeket RSS 2.0 (XML) formátumban adják vissza.