Web Article Curator

Innen: MIA

A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munkatársai által fejlesztett open source Python program hírportálok, fórumok és blogok bejegyzéseinek web scraping jellegű letöltésére WARC formátumba. Az egyes webhelyek szerkezetének felderítése után egy séma fájlban nagyon precízen bekonfigurálható, hogy mit töltsön le a crawler és hogyan kövesse a linkeket. (Több magyar hírportálhoz kész config fájlok állnak rendelkezésre a Github repozitóriumban.)