PADICAT (katalán)

Innen: MIA

(Patrimoni Digital de Catalunya)

A Biblioteca de Catalunya, a katalán nemzeti könyvtár 2005 júniusában, a CESCA (Centre de Supercomputació de Catalunya) nevű informatikai intézettel közösen indított webarchiválási projektje. Egy éves előkészítés után kezdtek el menteni (kezdetben önkormányzatok és szakmai szervezetek honlapjait), és 2006 szeptember 11-én már meg is jelent a PADICAT honlapja 30 lementett webhellyel. A pilot fázis és a tervezés 2008-ig tartott, ez után indult a szisztematikus gyűjtés. 2011-ben készült el az új felület, és ekkor már 45 ezer webhely (200 ezer mentés, 300 millió fájl) volt az archívumban, melyek 10 terabájtot foglaltak el. A technológiai partner ekkor már a CSUC (Consorci de Serveis Universitaris de Catalunya). 2013-ban 72.663 website (313 ezer mentés, 432 millió fájl) volt az archívumban, amelyek 17,2 terabájtot foglaltak el (ebből 1,3 terabájt az index). A szelektív mentés (kb. 13 ezer site) mellett a .cat domaint is aratják (ez összesen 52 ezer site). Mintegy 500 katalán intézménnyel, szervezettel van írásos együttműködési szerződésük, ennek köszönhetően az archivált anyag egy része nyilvánosan is elérhető.

A használt szoftverek: Heritrix, NutchWAX, WERA, Wayback, WCT. A katalogizáláshoz egy saját rendszert is kifejlesztettek 2010-ben CAT néven. Az aratást és indexelést egy hat node-ból álló HP ProLiant DL360 G4p végzi, a kereső és szolgáltató felület mögött egy Linux klaszter van, amely rugalmasan alkalmazkodik a terheléshez. A háttértár egy 19 terabájtos NetApp FAS3170 tároló. Az archívum anyagát a könyvtár COFRE (COnservem per al Futur Recursos Electrònics) nevű, digitális megőrzésre szolgáló rendszerébe is elteszik.