LCWA (amerikai)

Innen: MIA

(Library of Congress Web Archives)

A Library of Congress 2000-ben indított szelektív webarchiváló projektje, akkor még MINERVA (Mapping the Internet the Electronic Resources Virtual Archive) néven. Kezdetben a HTTrack-kel mentettek fontosabb webhelyeket, első lépésben csak 35-öt, majd az Internet Archive-val és egyetemi intézményekkel együttműködve a 2000-es elnökválasztási kampány alatt már 200 site-ról csináltak napi mentéseket a Heritrixszel. 2002 második félévére 1.3 terabájtnyi anyagot gyűjtöttek össze, 2005 végén 40, 2009 májusában közel 100, 2011 szeptemberében 254, 2013 májusában 420 terabájt volt az archívum mérete és 7741 webhelyet lehetett visszakeresni az akkor elkészült új felületen (2017 áprilisában ez a szám már 11,330, ebből 10,504 a nyilvánosan hozzáférhető). Igyekeznek minél hűbb mentéseket csinálni, a beágyazott médiát is mentik, és nem módosítják a HTML-kódot (csak a megjelenítéskor).

A tematikus gyűjtések mellett sokszor valamilyen eseményről készítenek kisebb-nagyobb speciális archívumokat (pl. a szeptember 11-i terrortámadás, a 2002-es téli olimpia, az iraki háború) 2012-ben 54 részarchívumuk volt, de a 2010-es Single Sites Web Archive projektjükben elkezdtek olyan webhelyeket is menteni (köztük magyarokat is), amelyek egyik részgyűjteménybe sem illettek bele. 2004 óta egy webarchiváló munkacsoport végzi a válogatást (külső szakembereket is bevonva), engedélykérést, minőségellenőrzést, a saját fejlesztésű DigiBoard keretrendszer segítségével. A Heritrix-Wayback párost használják, korábban ARC, ma már WARC fájlokba mentenek, de BagIt csomagok formájában tárolják őket. A katalogizáláshoz a cURL-t használva kigyűjtik a weboldalakból az esetleges metaadatokat, amiket azután a katalogizálók még átnéznek, javítanak és kiegészítenek a kötött szótárakból vett fogalmakkal, témakategóriákkal. A metaadatok a webhelyek esetében a MODS séma alapján XML fájlokba kerülnek (egy Lucene kereső van hozzájuk), a belőlük kialakított tematikus- vagy esemény-alapú részgyűjteményekről pedig MARC rekordok készülnek, amelyek a könyvtár központi katalógusába is bekerülnek.