„OSCAR” változatai közötti eltérés
(Új oldal, tartalma: „= (Open Super-large Crawled Aggregated coRpus) = Gépi tanuláshoz és mesterséges intelligencia alkalmazásokhoz használható nyers (nem annotált), de jó minősé…”) |
|||
(Egy közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva) | |||
1. sor: | 1. sor: | ||
= (Open Super-large Crawled Aggregated coRpus) = |
= (Open Super-large Crawled Aggregated coRpus) = |
||
− | Gépi tanuláshoz és mesterséges intelligencia alkalmazásokhoz használható nyers (nem annotált), de jó minőségű szövegkorpuszok, melyeket nagy tömegű webes tartalomból szűrtek ki. Minden aratás anyaga külön korpuszként érhető el, a tárolási formátum tömörített JSON fájl. 2023-ban már 166 különböző nyelvre terjedt ki a gyűjtemény, mely ingyenesen használható, de a hozzáféréshez engedélyt kell kérni a cél megjelölésével. Az adatfájlok a |
+ | Gépi tanuláshoz és mesterséges intelligencia alkalmazásokhoz használható nyers (nem annotált), de jó minőségű szövegkorpuszok, melyeket nagy tömegű webes tartalomból szűrtek ki. Minden aratás anyaga külön korpuszként érhető el, a tárolási formátum tömörített JSON fájl. 2023-ban már 166 különböző nyelvre terjedt ki a gyűjtemény, mely ingyenesen használható, de a hozzáféréshez engedélyt kell kérni a cél megjelölésével. Az adatfájlok a Huma-Num vagy a HuggingFace platformon át érhetők el. A projektet német és francia intézmények finanszírozzák. |
---- |
---- |
||
− | * [https:/ |
+ | * [https://oscar-project.org/ Az OSCAR projekt honlapja] |
+ | * [https://huggingface.co/oscar-corpus Az OSCAR korpusz weboldala] |
||
* [https://oscar-project.github.io/documentation/ Az OSCAR dokumentációja a GitHub-on] |
* [https://oscar-project.github.io/documentation/ Az OSCAR dokumentációja a GitHub-on] |
||
A lap jelenlegi, 2024. szeptember 1., 14:43-kori változata
(Open Super-large Crawled Aggregated coRpus)
Gépi tanuláshoz és mesterséges intelligencia alkalmazásokhoz használható nyers (nem annotált), de jó minőségű szövegkorpuszok, melyeket nagy tömegű webes tartalomból szűrtek ki. Minden aratás anyaga külön korpuszként érhető el, a tárolási formátum tömörített JSON fájl. 2023-ban már 166 különböző nyelvre terjedt ki a gyűjtemény, mely ingyenesen használható, de a hozzáféréshez engedélyt kell kérni a cél megjelölésével. Az adatfájlok a Huma-Num vagy a HuggingFace platformon át érhetők el. A projektet német és francia intézmények finanszírozzák.