OSCAR

Innen: MIA

(Open Super-large Crawled Aggregated coRpus)

Gépi tanuláshoz és mesterséges intelligencia alkalmazásokhoz használható nyers (nem annotált), de jó minőségű szövegkorpuszok, melyeket nagy tömegű webes tartalomból szűrtek ki. Minden aratás anyaga külön korpuszként érhető el, a tárolási formátum tömörített JSON fájl. 2023-ban már 166 különböző nyelvre terjedt ki a gyűjtemény, mely ingyenesen használható, de a hozzáféréshez engedélyt kell kérni a cél megjelölésével. Az adatfájlok a Huma-Num vagy a HuggingFace platformon át érhetők el. A projektet német és francia intézmények finanszírozzák.