Tika能夠從文件中提取元數據。html
什麼是元數據:spa
元數據是文件所提供的的附件信息即文件的屬性。 code
word文檔的元數據:htm
Tika提取元數據:對象
咱們可使用文件parse()方法提取元數據,傳遞一個空的元數據對象做爲一個參數。這種方法提取指定的文件的元數據(若是該文件中包含有),並將它們放置在元數據對象。所以,在使用parse()解析文件後,就能夠提取該對象的元數據。blog
下面是完成提取元數據的例子文檔
@Test public void getMetadataToImg() throws IOException, TikaException, SAXException { File file = new File("F:\\頁面\\數字檔案室\\html - 副本\\style\\erms\\images\\hintIcon.png"); Parser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(); Metadata metadata = new Metadata(); FileInputStream inputstream = new FileInputStream(file); ParseContext context = new ParseContext(); parser.parse(inputstream, handler, metadata, context); String[] metadataNames = metadata.names(); for (String name : metadataNames) { System.out.println(name + ": " + metadata.get(name)); } }
獲取結果:get
文檔參考網址:https://www.sxt.cn/tika/tika_metadata_extraction.htmlinput