WebBase

Innen: MIA

A Stanford Digital Libraries Project keretében (a Google keresőjéhez vezető korábbi kutatásokra építve) a 2000-es évek első évtizedében fejlesztett webarchiváló rendszer és archívum is egyben, főként tudományos célokra (pl. történészeknek, szociológusoknak, nyelvészeknek). Fókuszált gyűjteményeket építettek (pl. kormányzati oldalak, újságok, egyetemek, választások, és a Katrina hurrikán után is mentettek minden nap néhány hétig 350 webhelyről), melyeket részben vagy egészben streamelt (multicast) módon gyorsan letölthetett bárki egy Wibbi nevű webfelületről. 2004 és 2008 szeptembere közt (tömörítetlenül) 117 terabájtnyi anyagot mentettek le a WebVac crawlerrel (korlátozva a mélységet és a méretet), de 2011 augusztusában már 260 terabájt (7 millárd fájl) volt a teljes mérete az archívumnak, melyet saját formátumról előbb ARC, később WARC formátumra konvertáltak egy C++ programmal.