Trafilatura

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. július 6., 13:29-kor történt szerkesztése után volt. (Új oldal, tartalma: „Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakb…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Berlini kutatóintézetben természetes nyelv feldolgozással foglalkozó szakember által írt Python könyvtár és parancssoros web scraping eszköz weboldalakból való metaadat- és szövegkinyerésre. Képes megőrizni az oldal szerkezetét és a szöveg formázását, valamint az esetleges kommenteket is. Követi az oldalban talált linkeket, de sitemap vagy ATOM/RSS feed alapján is tud dolgozni. A kimenet lehet TXT, CSV, JSON, XML és TEI-XML. Opcionálisan nyelvfelismerést is tud.