Dewdrop

Innen: MIA

A brit University of Sheffield digitális bölcsészeti intézetében 2017-ig fejlesztett open-source Java program, mellyel robotbarát fájlokká lehet konvertálni HTML, PDF és Word dokumentumok, valamint adatbázisok tartalmát a keresőgépek, az aggregátorok vagy egyéb webtartalom-gyűjtő alkalmazások számára. A program egy Crawler és egy Analyser modulból áll. Előbbi begyűjti a tartalmat, utóbbi pedig deduplikáció után kiszedi belőle és elmenti HTML RDFa, sima RDF vagy JSON-LD fájlokba a tulajdonneveket, a dátumokat, a gyakori kulcsszavakat (azok szinonimáival együtt), továbbá "értelmes" title-t és URL-t állít be. Végül a gyökérkönyvtárban elhelyezendő Sitemap, HTACCESS és HTMAPPER fájlokat is generál, melyek a robotokat ezekre a "barátságos" verziókra irányítják, az emberi felhasználókat pedig továbbküldik az eredeti weboldalakra/fájlokra/adatbázis rekordokra.