Trafilatura

Innen: MIA

Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakból való metaadat- és szövegkinyerésre. Képes megőrizni az oldal szerkezetét és a szöveg formázását, valamint az esetleges kommenteket is. Követi az oldalban talált linkeket, de sitemap vagy ATOM/RSS feed alapján is tud dolgozni. A kimenet lehet TXT, CSV, JSON, XML és TEI-XML. Opcionálisan nyelvfelismerést is tud.