Netarchive.dk (dán)

Innen: MIA
(Netarchive dk (dán) szócikkből átirányítva)

(Netarkivet.dk)

A dán weben található dokumentumok könyvtári archiválása 1998-ban kezdődött, de akkor még csak egyedi mentésekkel. A Netarchive.dk projekt 2001-ben indult, ezzel csatlakozott Dánia a skandináv NWA-hoz. A pilot fázisban a The Royal Library, a State and University Library, Aarhus és a Centre for Internet Research működött együtt a Danish Electronic Research Library pénzügyi támogatásával. 2001 nyarán csinálták az első tömeges aratást a NEDLIB Harvesterrel, ez 1,9 millió dokumentumot eredményezett, ami 43 gigabájtnyi (tömörítetlen) adatot jelentett. 2005-ben a kötelespéldány törvény felhatalmazta a nemzeti könyvtárat az internet dán részének megőrzésére (sőt a robots.txt korlátozások megkerülésére is). 2007-re elkészültek a NetarchiveSuite keretrendszerrel és áttértek a Heritrix aratógépre. 2008-ban 450.000 eurós költségvetéssel két könyvtárból 15 ember dolgozott az archívumon, és eddigre már hat teljes aratásból 61 terabájt, 80 webhely szelektív mentéséből 9.5 terabájt, kilenc esemény (pl. választások) archiválásából pedig 5,6 terabájt gyűlt össze. A 750 ezer .dk végződésűn kívül felderítettek 42 ezer további dán webhelyet is (pl. a kifelé mutató linkek elemzésével, vagy dán szavakra és településnevekre való Google keresésekkel). Egy teljes aratás akkoriban kb. 80 napot igényelt (8 gépről) és 20 terabájtot eredményezett (ennek 30%-át meg lehetett spórolni a deduplikációval). 2015 novemberében a teljes Netarchive mérete 654 terabájt volt és a deduplikáció aratásonként már 50-70%-os megtakarítást eredményezett.

Jelenleg évi négyszer mentik a teljes dán webteret (100 Mbájtra és max. 25 szintnyi mélységre korlátozva az egy domainról begyűjtött tartalmat, néhány fontos webhely kivételével). 2016 nyarán így 242 millió objektumot, 11,2 terabájtot mentettek le (ugyanakkor a teljes .dk domain méretét 542 terabájtra becsülik - a multimédia tartalommal együtt). A főbb hírportálokat akár naponta hatszor is mentik. Ha valami rendkívüli esemény van, akkor előre konfigurált aratást tudnak indítani egyetlen kattintással, hogy ne maradjanak le a legelejéről sem. Fontos személyek Facebook, Twitter és Instagram oldalait is mentik (a Facebook-ot az Archive-It segítségével, a másik kettőt Heritrix-szel). A Heritrxnek egy módosított verzióját használják, apróbb módosításokkal az eredetihez képest, a lényeges új funció az Internet Archive dán vonatkozású anyagainak aratásának lehetővé tétele.

Már 20 ember (IT mérnök, informatikus és webkurátor) foglalkozik a webarchívummal, ez 4,5 főállású alkalmazott munkaidejének felel meg. Az archívum csak kutatóknak (PhD vagy doktori fokozattal) és az eredeti tartalomgazdáknak hozzáférhető, a benne levő személyes adatok védelme miatt. Böngészni (az OpenWayback megjelenítővel) és szövegesen keresni (Netsearch/Blacklight) egyaránt lehet benne.