Apache Tika
Az Apache Software Foundation által (korábban az Apache Nutch, ill. a Lucene alprojektjeként) fejlesztett eszköz, ami megtalálja és kigyűjti a metaadatokat, valamint a szöveget több mint ezerféle fájlformátumból, alkalmassá téve így a fájlokat a visszakeresésre, a tartalomelemzésre stb. Jól használható webarchívumoknál is a nagy tömegű heterogén fájlhalmazok teljes szövegű indexeléshez való előkészítésére, ill. automatikus metaadatolására.