„Web Article Curator” változatai közötti eltérés

A lap jelenlegi, 2021. július 5., 18:34-kori változata

A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munkatársai által fejlesztett open source Python program hírportálok, fórumok és blogok bejegyzéseinek web scraping jellegű letöltésére WARC formátumba. Az egyes webhelyek szerkezetének felderítése után egy séma fájlban nagyon precízen bekonfigurálható, hogy mit töltsön le a crawler és hogyan kövesse a linkeket. (Több magyar hírportálhoz kész config fájlok állnak rendelkezésre a Github repozitóriumban.)

A lap 2021. július 5., 18:33-kori változata (lapforrás) Admin (vitalap \| szerkesztései) (Új oldal, tartalma: „A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munka…”)		A lap jelenlegi, 2021. július 5., 18:34-kori változata (lapforrás) Admin (vitalap \| szerkesztései)
1. sor:		1. sor:
−	A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munkatársai által fejlesztett Python program hírportálok, fórumok és blogok bejegyzéseinek [[web scraping]] jellegű letöltésére [[WARC]] formátumba. Az egyes webhelyek szerkezetének felderítése után egy séma fájlban nagyon precízen bekonfigurálható, hogy mit töltsön le a crawler és hogyan kövesse a linkeket. (Több magyar hírportálhoz kész config fájlok állnak rendelkezésre a Github repozitóriumban.)	+	A PPKE-n működő természetes nyelv feldolgozó munkacsoport 2018-as Corpusbuilder projektjének folytatásaként az ELTE Digitális Bölcsészeti Tanszékének munkatársai által fejlesztett open source Python program hírportálok, fórumok és blogok bejegyzéseinek [[web scraping]] jellegű letöltésére [[WARC]] formátumba. Az egyes webhelyek szerkezetének felderítése után egy séma fájlban nagyon precízen bekonfigurálható, hogy mit töltsön le a crawler és hogyan kövesse a linkeket. (Több magyar hírportálhoz kész config fájlok állnak rendelkezésre a Github repozitóriumban.)

	----		----

„Web Article Curator” változatai közötti eltérés

A lap jelenlegi, 2021. július 5., 18:34-kori változata

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök