„SpiderLing” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „A cseh Masaryk Egyetem természetes nyelvfeldolgozással foglalkozó intézetében Python-ban fejlesztett spider, elsősorban nyelvészeti kutatásokhoz h…”)
 
 
1. sor: 1. sor:
A cseh Masaryk Egyetem természetes nyelvfeldolgozással foglalkozó intézetében Python-ban fejlesztett [[crawler | spider]], elsősorban nyelvészeti kutatásokhoz használható nagy szövegkorpuszok létrehozása céljából. Az általános aratórobotoktól eltérően a SpiderLing csak a szöveges tartalmakat menti le és azokat a doméneket, amelyekről egy megadott küszöbértéknél már kevesebb tartalom töltődik le, nem aratja tovább. A "nyersanyagot" gzip tömörítésű ARC fájlokba teszi el, valamint további segédfájlokat is készít.
+
A cseh Masaryk Egyetem természetes nyelvfeldolgozással foglalkozó intézetében Python-ban fejlesztett [[crawler | spider]], elsősorban nyelvészeti kutatásokhoz használható nagy szövegkorpuszok létrehozása céljából. Az általános aratórobotoktól eltérően a SpiderLing csak a szöveges tartalmakat menti le és azokat a doméneket, amelyekről egy megadott küszöbértéknél már kevesebb tartalom töltődik le, nem aratja tovább. A "nyersanyagot" gzip tömörítésű [[ARC]] fájlokba teszi el, valamint további segédfájlokat is készít.
   
 
----
 
----

A lap jelenlegi, 2019. július 16., 19:07-kori változata

A cseh Masaryk Egyetem természetes nyelvfeldolgozással foglalkozó intézetében Python-ban fejlesztett spider, elsősorban nyelvészeti kutatásokhoz használható nagy szövegkorpuszok létrehozása céljából. Az általános aratórobotoktól eltérően a SpiderLing csak a szöveges tartalmakat menti le és azokat a doméneket, amelyekről egy megadott küszöbértéknél már kevesebb tartalom töltődik le, nem aratja tovább. A "nyersanyagot" gzip tömörítésű ARC fájlokba teszi el, valamint további segédfájlokat is készít.