Web Article Curator

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. július 5., 17:33-kor történt szerkesztése után volt. (Új oldal, tartalma: „A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munka…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munkatársai által fejlesztett Python program hírportálok, fórumok és blogok bejegyzéseinek web scraping jellegű letöltésére WARC formátumba. Az egyes webhelyek szerkezetének felderítése után egy séma fájlban nagyon precízen bekonfigurálható, hogy mit töltsön le a crawler és hogyan kövesse a linkeket. (Több magyar hírportálhoz kész config fájlok állnak rendelkezésre a Github repozitóriumban.)