„Magyar Webkorpusz” változatai közötti eltérés
(Új oldal, tartalma: „A BME-n működő Média Oktató és Kutató Központ Szószablya projektjének keretében előállított, szabadon felhasználható szövegkorpusz, melynek anyagát 20…”) |
(Nincs különbség)
|
A lap 2019. július 15., 18:48-kori változata
A BME-n működő Média Oktató és Kutató Központ Szószablya projektjének keretében előállított, szabadon felhasználható szövegkorpusz, melynek anyagát 2002 vége és 2004 januárja között aratott több millió magyar weboldalból nyerték ki. Ezek a weboldalak eredetileg részben az Origo által működtetett Altavizslához, részben a SZTAKI Larbin crawlert használó saját webes keresőjéhez lettek lementve, majd különböző szűréseken mentek át (pl. a Hunspell helyesírás-ellenőrzővel).
- A projekt archivált weblapja az Internet Archive-ban
- A letöltött weboldalak és a megszűrt szöveganyag
- [http://eprints.sztaki.hu/7886/1/Kornai_1773394_ny.pdf Halácsy Péter - Kornai András - Németh László - Rung András - Szakadát István - Trón Viktor: A Szószablya projekt}