„Common Crawl” változatai közötti eltérés

A lap jelenlegi, 2024. szeptember 1., 14:41-kori változata

Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az Apache Nutch-ra épülő crawler-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). Egy-egy negyedéves aratás kb. 2 hétig fut, és a lementett anyag 3 milliárdnál is több URL-t tartalmaz 250-450 terabájt összméretben. A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. A nagy nyelvi modellek tanításához az egyik legjobb kivonatolt Common Crawl adathalmaz a FineWeb.

@@ 1. sor: / 1. sor: @@
-Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az [[Apache Nutch]]-ra épülő [[crawler]]-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. 2015 novemberében 151 terabájt volt a gyűjtemény mérete, ami 1.82 milliárd weboldalt jelentett. A 2017 augusztusi adatok pedig: 280 terabájt, 3.3 milliárd weboldal. (De van olyan forrás is, amely szerint 2017-ben már 8 évnyi anyaguk volt, több mint 2 petabájt méretben.)
+Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az [[Apache Nutch]]-ra épülő [[crawler]]-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). Egy-egy negyedéves aratás kb. 2 hétig fut, és a lementett anyag 3 milliárdnál is több URL-t tartalmaz 250-450 terabájt összméretben. A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. A nagy nyelvi modellek tanításához az egyik legjobb kivonatolt Common Crawl adathalmaz a FineWeb.
 ----
@@ 8. sor: / 8. sor: @@
 * [https://github.com/commoncrawl/ A Common Crawl a GitHub-on]
 * [https://groups.google.com/forum/?fromgroups#!forum/common-crawl Common Crawl Group]
+* [https://huggingface.co/HuggingFaceFW HuggingFace - FineWeb datasets]
 [[Category:SZERVEZETEK]] [[Category:PROJEKTEK]]

„Common Crawl” változatai közötti eltérés

A lap jelenlegi, 2024. szeptember 1., 14:41-kori változata

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök