Tika提取文件元數據

Tika能夠從文件中提取元數據。html

什麼是元數據:spa

元數據是文件所提供的的附件信息即文件的屬性。  code

word文檔的元數據:htm

  

Tika提取元數據:對象

咱們可使用文件parse()方法提取元數據,傳遞一個空的元數據對象做爲一個參數。這種方法提取指定的文件的元數據(若是該文件中包含有),並將它們放置在元數據對象。所以,在使用parse()解析文件後,就能夠提取該對象的元數據。blog

下面是完成提取元數據的例子文檔

  @Test
    public void getMetadataToImg() throws IOException, TikaException, SAXException {
        File file = new File("F:\\頁面\\數字檔案室\\html - 副本\\style\\erms\\images\\hintIcon.png");
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        FileInputStream inputstream = new FileInputStream(file);
        ParseContext context = new ParseContext();
        parser.parse(inputstream, handler, metadata, context);
        String[] metadataNames = metadata.names();
        for (String name : metadataNames) {
            System.out.println(name + ": " + metadata.get(name));
        }
    }

獲取結果:get

 

 文檔參考網址:https://www.sxt.cn/tika/tika_metadata_extraction.htmlinput

相關文章
相關標籤/搜索