„Lemur Project” változatai közötti eltérés

A lap jelenlegi, 2018. március 18., 21:24-kori változata

2000-ben a Center for Intelligent Information Retrieval (University of Massachusetts) és a Language Technologies Institute (Carnegie Mellon University) által indított projekt, amelynek keretében különféle open source szövegelemző szoftvereket, böngésző kiegészítőket és keresőgépeket fejlesztenek statisztikai nyelvészeti vizsgálatokhoz. Ezekhez a szövegbányászati kutatásokhoz nagy, megvásárolható adatbázisokat is kínálnak, amelyek archivált weboldalakból állnak. A ClueWeb09 nevű adathalmaz 2009 januárjában és februárjában lett begyűjtve, és tízféle nyelven íródott, több mint 1 milliárd weboldalt tartalmaz, a mérete 5 terabájt (tömörítetlenül 25 TB). Az ezt később kiegészítő ClueWeb12 pedig 2012 tavaszán learatott 733 millió angol nyelvű weboldal halmaza.

@@ 1. sor: / 1. sor: @@
--ben a Center for Intelligent Information Retrieval (University of Massachusetts) és a Language Technologies Institute (Carnegie Mellon University) által indított projekt, amelynek keretében különféle open source szövegelemző szoftvereket, böngésző kiegészítőket és keresőgépeket fejlesztenek statisztikai nyelvészeti vizsgálatokhoz. Ezekhez a szövegbányászati kutatásokhoz nagy, megvásárolható adatbázisokat is kínálnak, amelyek archivált weboldalakból állnak. A ClueWeb09 nevű adathalmaz 2009 januárjában és februárjában lett begyűjtve, és tízféle nyelven íródott, több mint 1 milliárd weboldalt tartalmaz, a mérete pedig 5 terabájt (tömörítetlenül 25 TB). Az ezt később kiegészítő ClueWeb12 halmaz 733 millió angol nyelvű weboldalból áll, melyeket 2012 tavaszán arattak le.
+-ben a Center for Intelligent Information Retrieval (University of Massachusetts) és a Language Technologies Institute (Carnegie Mellon University) által indított projekt, amelynek keretében különféle open source szövegelemző szoftvereket, böngésző kiegészítőket és keresőgépeket fejlesztenek statisztikai nyelvészeti vizsgálatokhoz. Ezekhez a szövegbányászati kutatásokhoz nagy, megvásárolható adatbázisokat is kínálnak, amelyek archivált weboldalakból állnak. A ClueWeb09 nevű adathalmaz 2009 januárjában és februárjában lett begyűjtve, és tízféle nyelven íródott, több mint 1 milliárd weboldalt tartalmaz, a mérete 5 terabájt (tömörítetlenül 25 TB). Az ezt később kiegészítő ClueWeb12 pedig 2012 tavaszán learatott 733 millió angol nyelvű weboldal halmaza.
 ----
@@ 7. sor: / 7. sor: @@
 * [http://lemurproject.org/clueweb12.php A ClueWeb12 adatbázis weboldala]
 * [https://github.com/tmanabe/ClueWeb A ClueWeb halmazokhoz használható szoftvereszközök a GitHub-on]
-* [https://www.muni.cz/en/research/publications/991165] Pomikálek Jan - Rychlý Pavel - Jakubíček Miloš:  Building a 70 billion word corpus of English from ClueWeb]
+* [https://www.muni.cz/en/research/publications/991165 Pomikálek Jan - Rychlý Pavel - Jakubíček Miloš:  Building a 70 billion word corpus of English from ClueWeb]
 [[Category:PROJEKTEK]]

„Lemur Project” változatai közötti eltérés

A lap jelenlegi, 2018. március 18., 21:24-kori változata

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök