SpiderLing

Innen: MIA

A cseh Masaryk Egyetem természetes nyelvfeldolgozással foglalkozó intézetében Python-ban fejlesztett spider, elsősorban nyelvészeti kutatásokhoz használható nagy szövegkorpuszok létrehozása céljából. Az általános aratórobotoktól eltérően a SpiderLing csak a szöveges tartalmakat menti le és azokat a doméneket, amelyekről egy megadott küszöbértéknél már kevesebb tartalom töltődik le, nem aratja tovább. A "nyersanyagot" gzip tömörítésű ARC fájlokba teszi el, valamint további segédfájlokat is készít.