tika的框架,功能

Tika是什麼?       Tika是一個內容抽取的工具集合。它集成了POI, Pdfbox 並且爲文本抽取工作提供了一個統一的界面。其次,Tika也提供了便利的擴展API,用來豐富其對第三方文件格式的支持。 Apache Tika 可以自動檢測各種文檔(如word,ppt,xml,csv,ppt等)的類型並抽取文檔的元數據和文本內容。Tika集成了現有的文檔解析庫,並提供統一的接口,使針對不同
相關文章
相關標籤/搜索