Trafilatura
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. július 6., 13:29-kor történt szerkesztése után volt. (Új oldal, tartalma: „Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakb…”)
Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakból való metaadat- és szövegkinyerésre. Képes megőrizni az oldal szerkezetét és a szöveg formázását, valamint az esetleges kommenteket is. Követi az oldalban talált linkeket, de sitemap vagy ATOM/RSS feed alapján is tud dolgozni. A kimenet lehet TXT, CSV, JSON, XML és TEI-XML. Opcionálisan nyelvfelismerést is tud.