„Web Article Curator” változatai közötti eltérés
(Új oldal, tartalma: „A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munka…”) |
|||
1. sor: | 1. sor: | ||
− | A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munkatársai által fejlesztett Python program hírportálok, fórumok és blogok bejegyzéseinek [[web scraping]] jellegű letöltésére [[WARC]] formátumba. Az egyes webhelyek szerkezetének felderítése után egy séma fájlban nagyon precízen bekonfigurálható, hogy mit töltsön le a crawler és hogyan kövesse a linkeket. (Több magyar hírportálhoz kész config fájlok állnak rendelkezésre a Github repozitóriumban.) |
+ | A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munkatársai által fejlesztett open source Python program hírportálok, fórumok és blogok bejegyzéseinek [[web scraping]] jellegű letöltésére [[WARC]] formátumba. Az egyes webhelyek szerkezetének felderítése után egy séma fájlban nagyon precízen bekonfigurálható, hogy mit töltsön le a crawler és hogyan kövesse a linkeket. (Több magyar hírportálhoz kész config fájlok állnak rendelkezésre a Github repozitóriumban.) |
---- |
---- |
A lap jelenlegi, 2021. július 5., 17:34-kori változata
A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munkatársai által fejlesztett open source Python program hírportálok, fórumok és blogok bejegyzéseinek web scraping jellegű letöltésére WARC formátumba. Az egyes webhelyek szerkezetének felderítése után egy séma fájlban nagyon precízen bekonfigurálható, hogy mit töltsön le a crawler és hogyan kövesse a linkeket. (Több magyar hírportálhoz kész config fájlok állnak rendelkezésre a Github repozitóriumban.)