„Magyar Webkorpusz” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „A BME-n működő Média Oktató és Kutató Központ Szószablya projektjének keretében előállított, szabadon felhasználható szövegkorpusz, melynek anyagát 20…”)
 
 
5. sor: 5. sor:
 
* [http://web.archive.org/web/20050519003435/http://mokk.bme.hu/eszkozok/webkorpusz/ A projekt archivált weblapja az Internet Archive-ban]
 
* [http://web.archive.org/web/20050519003435/http://mokk.bme.hu/eszkozok/webkorpusz/ A projekt archivált weblapja az Internet Archive-ban]
 
* [ftp://komm.bme.hu/Language/Hungarian/Crawl/ A letöltött weboldalak és a megszűrt szöveganyag]
 
* [ftp://komm.bme.hu/Language/Hungarian/Crawl/ A letöltött weboldalak és a megszűrt szöveganyag]
* [http://eprints.sztaki.hu/7886/1/Kornai_1773394_ny.pdf Halácsy Péter - Kornai András - Németh László - Rung András - Szakadát István - Trón Viktor: A Szószablya projekt}
+
* [http://eprints.sztaki.hu/7886/1/Kornai_1773394_ny.pdf Halácsy Péter - Kornai András - Németh László - Rung András - Szakadát István - Trón Viktor: A Szószablya projekt]
   
 
[[Category:PROJEKTEK]]
 
[[Category:PROJEKTEK]]

A lap jelenlegi, 2019. július 15., 18:48-kori változata

A BME-n működő Média Oktató és Kutató Központ Szószablya projektjének keretében előállított, szabadon felhasználható szövegkorpusz, melynek anyagát 2002 vége és 2004 januárja között aratott több millió magyar weboldalból nyerték ki. Ezek a weboldalak eredetileg részben az Origo által működtetett Altavizslához, részben a SZTAKI Larbin crawlert használó saját webes keresőjéhez lettek lementve, majd különböző szűréseken mentek át (pl. a Hunspell helyesírás-ellenőrzővel).