„Common Crawl” változatai közötti eltérés
(Új oldal, tartalma: „Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saj…”) |
|||
(4 közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva) | |||
1. sor: | 1. sor: | ||
− | Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az [[Apache Nutch]]-ra épülő [[crawler]]-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. |
+ | Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az [[Apache Nutch]]-ra épülő [[crawler]]-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). Egy-egy negyedéves aratás kb. 2 hétig fut, és a lementett anyag 3 milliárdnál is több URL-t tartalmaz 250-450 terabájt összméretben. A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. A nagy nyelvi modellek tanításához az egyik legjobb kivonatolt Common Crawl adathalmaz a FineWeb. |
---- |
---- |
||
5. sor: | 5. sor: | ||
* [http://commoncrawl.org A Common Crawl honlapja] |
* [http://commoncrawl.org A Common Crawl honlapja] |
||
* [http://commoncrawl.org/the-data/examples/ Examples using Common Crawl Data] |
* [http://commoncrawl.org/the-data/examples/ Examples using Common Crawl Data] |
||
+ | * [http://commoncrawl.org/2019/02/host-and-domain-level-web-graphs-nov-dec-2018-jan-2019/ Host- and Domain-Level Web Graphs Nov/Dec/Jan 2018 – 2019] |
||
* [https://github.com/commoncrawl/ A Common Crawl a GitHub-on] |
* [https://github.com/commoncrawl/ A Common Crawl a GitHub-on] |
||
* [https://groups.google.com/forum/?fromgroups#!forum/common-crawl Common Crawl Group] |
* [https://groups.google.com/forum/?fromgroups#!forum/common-crawl Common Crawl Group] |
||
+ | * [https://huggingface.co/HuggingFaceFW HuggingFace - FineWeb datasets] |
||
− | [[Category:SZERVEZETEK]] |
+ | [[Category:SZERVEZETEK]] [[Category:PROJEKTEK]] |
A lap jelenlegi, 2024. szeptember 1., 14:41-kori változata
Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az Apache Nutch-ra épülő crawler-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). Egy-egy negyedéves aratás kb. 2 hétig fut, és a lementett anyag 3 milliárdnál is több URL-t tartalmaz 250-450 terabájt összméretben. A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. A nagy nyelvi modellek tanításához az egyik legjobb kivonatolt Common Crawl adathalmaz a FineWeb.