Norconex HTTP Collector

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2021. szeptember 9., 07:40-kor történt szerkesztése után volt. (Új oldal, tartalma: „Kanadai keresőcég által 2013 óta Java-ban fejlesztett, open source, nagy teljesítményű és teljes körű funkcionalitású web crawler. A begyűjtött tartal…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Kanadai keresőcég által 2013 óta Java-ban fejlesztett, open source, nagy teljesítményű és teljes körű funkcionalitású web crawler. A begyűjtött tartalom használható keresési célokra, de archívumként is. Konfigurációs fájlokban megadott paraméterekkel parancsmódban futtatható, de API-n keresztül is vezérelhető, így be lehet építeni egy saját alkalmazásba. Van benne nyelvfelismerés és ki tudja nyerni a szöveget HTML, PDF, Word stb fájlokból, sőt a képfájlokat és képi PDF-eket OCR-ezi is. Böngészőn keresztül is tud archiválni és oldalképeket készíteni. Felismeri a korábbi mentéshez képest módosult vagy törölt URL-eket, kezeli a sitemap.xml és a robot.txt szabályokat, valamint a bejelentkezéseket. A tartalmat különféle formátumokba és adatbázisokba tudja elmenteni, akár egyszerre többe is. Fizetős felhőszolgáltatás formájában is kínálja a Norconex.