Admin: Új oldal, tartalma: „Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakb…”

2021-07-06T12:29:12Z

Új oldal, tartalma: „Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakb…”

Új lap

Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros [[web scraping]] eszköz weboldalakból való metaadat- és szövegkinyerésre. Képes megőrizni az oldal szerkezetét és a szöveg formázását, valamint az esetleges kommenteket is. Követi az oldalban talált linkeket, de sitemap vagy ATOM/RSS feed alapján is tud dolgozni. A kimenet lehet TXT, CSV, JSON, XML és TEI-XML. Opcionálisan nyelvfelismerést is tud.

----

* [https://github.com/adbar/trafilatura A Trafilatura a GitHub-on]
* [https://trafilatura.readthedocs.io A Trafilatura dokumentációja]
* [https://adrien.barbaresi.eu/blog/trafilatura-main-text-content-python.html Adrien Barbaresi: Extracting the main text content from web pages using Python]

[[Category:SZOFTVEREK]]

Trafilatura - Laptörténet

Admin: Új oldal, tartalma: „Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakb…”