„Common Crawl” változatai közötti eltérés

Innen: MIA
1. sor: 1. sor:
Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az [[Apache Nutch]]-ra épülő [[crawler]]-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. 2015 novemberében 151 terabájt volt a gyűjtemény mérete, ami 1.82 milliárd weboldalt jelentett. (De van olyan forrás is, amely szerint 2017-ben már 8 évnyi anyaguk van, több mint 2 petabájt méretben.)
+
Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az [[Apache Nutch]]-ra épülő [[crawler]]-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. 2015 novemberében 151 terabájt volt a gyűjtemény mérete, ami 1.82 milliárd weboldalt jelentett. 2017 augusztusi adatok: 280 terabájt, 3.3 milliárd weboldal. (De van olyan forrás is, amely szerint 2017-ben már 8 évnyi anyaguk volt, több mint 2 petabájt méretben.)
   
 
----
 
----

A lap 2018. március 17., 21:22-kori változata

Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az Apache Nutch-ra épülő crawler-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. 2015 novemberében 151 terabájt volt a gyűjtemény mérete, ami 1.82 milliárd weboldalt jelentett. 2017 augusztusi adatok: 280 terabájt, 3.3 milliárd weboldal. (De van olyan forrás is, amely szerint 2017-ben már 8 évnyi anyaguk volt, több mint 2 petabájt méretben.)