„Common Crawl” változatai közötti eltérés

Innen: MIA
 
5. sor: 5. sor:
 
* [http://commoncrawl.org A Common Crawl honlapja]
 
* [http://commoncrawl.org A Common Crawl honlapja]
 
* [http://commoncrawl.org/the-data/examples/ Examples using Common Crawl Data]
 
* [http://commoncrawl.org/the-data/examples/ Examples using Common Crawl Data]
  +
* [http://commoncrawl.org/2019/02/host-and-domain-level-web-graphs-nov-dec-2018-jan-2019/ Host- and Domain-Level Web Graphs Nov/Dec/Jan 2018 – 2019]
 
* [https://github.com/commoncrawl/ A Common Crawl a GitHub-on]
 
* [https://github.com/commoncrawl/ A Common Crawl a GitHub-on]
 
* [https://groups.google.com/forum/?fromgroups#!forum/common-crawl Common Crawl Group]
 
* [https://groups.google.com/forum/?fromgroups#!forum/common-crawl Common Crawl Group]

A lap jelenlegi, 2019. július 25., 18:02-kori változata

Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az Apache Nutch-ra épülő crawler-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. 2015 novemberében 151 terabájt volt a gyűjtemény mérete, ami 1.82 milliárd weboldalt jelentett. A 2017 augusztusi adatok pedig: 280 terabájt, 3.3 milliárd weboldal. (De van olyan forrás is, amely szerint 2017-ben már 8 évnyi anyaguk volt, több mint 2 petabájt méretben.)