„Lemur Project” változatai közötti eltérés
1. sor: | 1. sor: | ||
− | 2000-ben a Center for Intelligent Information Retrieval (University of Massachusetts) és a Language Technologies Institute (Carnegie Mellon University) által indított projekt, amelynek keretében különféle open source szövegelemző szoftvereket, böngésző kiegészítőket és keresőgépeket fejlesztenek statisztikai nyelvészeti vizsgálatokhoz. Ezekhez a szövegbányászati kutatásokhoz nagy, megvásárolható adatbázisokat is kínálnak, amelyek archivált weboldalakból állnak. A ClueWeb09 nevű adathalmaz 2009 januárjában és februárjában lett begyűjtve, és tízféle nyelven íródott, több mint 1 milliárd weboldalt tartalmaz, a mérete pedig 5 terabájt (tömörítetlenül 25 TB). Az ezt később kiegészítő ClueWeb12 halmaz 733 millió angol nyelvű weboldalból áll, |
+ | 2000-ben a Center for Intelligent Information Retrieval (University of Massachusetts) és a Language Technologies Institute (Carnegie Mellon University) által indított projekt, amelynek keretében különféle open source szövegelemző szoftvereket, böngésző kiegészítőket és keresőgépeket fejlesztenek statisztikai nyelvészeti vizsgálatokhoz. Ezekhez a szövegbányászati kutatásokhoz nagy, megvásárolható adatbázisokat is kínálnak, amelyek archivált weboldalakból állnak. A ClueWeb09 nevű adathalmaz 2009 januárjában és februárjában lett begyűjtve, és tízféle nyelven íródott, több mint 1 milliárd weboldalt tartalmaz, a mérete pedig 5 terabájt (tömörítetlenül 25 TB). Az ezt később kiegészítő ClueWeb12 halmaz 733 millió angol nyelvű weboldalból áll, amiket 2012 tavaszán arattak le. |
---- |
---- |
A lap 2018. március 18., 20:23-kori változata
2000-ben a Center for Intelligent Information Retrieval (University of Massachusetts) és a Language Technologies Institute (Carnegie Mellon University) által indított projekt, amelynek keretében különféle open source szövegelemző szoftvereket, böngésző kiegészítőket és keresőgépeket fejlesztenek statisztikai nyelvészeti vizsgálatokhoz. Ezekhez a szövegbányászati kutatásokhoz nagy, megvásárolható adatbázisokat is kínálnak, amelyek archivált weboldalakból állnak. A ClueWeb09 nevű adathalmaz 2009 januárjában és februárjában lett begyűjtve, és tízféle nyelven íródott, több mint 1 milliárd weboldalt tartalmaz, a mérete pedig 5 terabájt (tömörítetlenül 25 TB). Az ezt később kiegészítő ClueWeb12 halmaz 733 millió angol nyelvű weboldalból áll, amiket 2012 tavaszán arattak le.