„Trafilatura” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakb…”)
 
(Nincs különbség)

A lap jelenlegi, 2021. július 6., 13:29-kori változata

Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakból való metaadat- és szövegkinyerésre. Képes megőrizni az oldal szerkezetét és a szöveg formázását, valamint az esetleges kommenteket is. Követi az oldalban talált linkeket, de sitemap vagy ATOM/RSS feed alapján is tud dolgozni. A kimenet lehet TXT, CSV, JSON, XML és TEI-XML. Opcionálisan nyelvfelismerést is tud.