Common Crawl
Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az Apache Nutch-ra épülő crawler-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). Egy-egy negyedéves aratás kb. 2 hétig fut, és a lementett anyag 3 milliárdnál is több URL-t tartalmaz 250-450 terabájt összméretben. A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. A nagy nyelvi modellek tanításához az egyik legjobb kivonatolt Common Crawl adathalmaz a FineWeb.