Magyar Webkorpusz

Innen: MIA

A BME-n működő Média Oktató és Kutató Központ Szószablya projektjének keretében előállított, szabadon felhasználható szövegkorpusz, melynek anyagát 2002 vége és 2004 januárja között aratott több millió magyar weboldalból nyerték ki. Ezek a weboldalak eredetileg részben az Origo által működtetett Altavizslához, részben a SZTAKI Larbin crawlert használó saját webes keresőjéhez lettek lementve, majd különböző szűréseken mentek át (pl. a Hunspell helyesírás-ellenőrzővel).