Tika提取文件元數據

時間 2019-11-12

標籤 tika 提取文件數據简体版

原文原文鏈接

Tika能夠從文件中提取元數據。html

什麼是元數據：spa

元數據是文件所提供的的附件信息即文件的屬性。　　code

word文檔的元數據：htm

Tika提取元數據：對象

咱們可使用文件parse()方法提取元數據，傳遞一個空的元數據對象做爲一個參數。這種方法提取指定的文件的元數據(若是該文件中包含有)，並將它們放置在元數據對象。所以，在使用parse()解析文件後，就能夠提取該對象的元數據。blog

下面是完成提取元數據的例子文檔

　　@Test
    public void getMetadataToImg() throws IOException, TikaException, SAXException {
        File file = new File("F:\\頁面\\數字檔案室\\html - 副本\\style\\erms\\images\\hintIcon.png");
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        FileInputStream inputstream = new FileInputStream(file);
        ParseContext context = new ParseContext();
        parser.parse(inputstream, handler, metadata, context);
        String[] metadataNames = metadata.names();
        for (String name : metadataNames) {
            System.out.println(name + ": " + metadata.get(name));
        }
    }

獲取結果：get

文檔參考網址：https://www.sxt.cn/tika/tika_metadata_extraction.htmlinput

相關標籤/搜索