„Common Crawl” változatai közötti eltérés

A lap 2017. november 9., 15:04-kori változata

Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az Apache Nutch-ra épülő crawler-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. 2015 novemberében 151 terabájt volt a gyűjtemény mérete, ami 1.82 milliárd weboldalt jelentett. (De van olyan forrás is, amely szerint 2017-ben már 8 évnyi anyaguk van, több mint 2 petabájt méretben.)

A lap 2017. július 25., 15:21-kori változata (lapforrás) Admin (vitalap \| szerkesztései) (Új oldal, tartalma: „Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saj…”)		A lap 2017. november 9., 15:04-kori változata (lapforrás) Admin (vitalap \| szerkesztései) Újabb szerkesztés →
8. sor:		8. sor:
	* [https://groups.google.com/forum/?fromgroups#!forum/common-crawl Common Crawl Group]		* [https://groups.google.com/forum/?fromgroups#!forum/common-crawl Common Crawl Group]

−	[[Category:SZERVEZETEK]]	+	[[Category:SZERVEZETEK]] [[Category:PROJEKTEK]]

„Common Crawl” változatai közötti eltérés

A lap 2017. november 9., 15:04-kori változata

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök