本文將介紹經過Java來提取或讀取Word文檔中文本和圖片的方法。這裏提取文本和圖片包括同時提取文檔正文當中以及頁眉、頁腳中的的文本和圖片。html
使用工具:Free Spire.Doc for Java (免費版)java
Jar文件導入方法(參考):node
方法1:下載jar文件包。下載後解壓文件,並將lib文件夾下的Spire.Doc.jar文件導入到java程序。導入效果參考以下:maven
方法2:可經過maven導入。參考導入方法。工具
測試文檔以下:測試
Java代碼示例(供參考)spa
【示例1】提取Word中的文本code
import com.spire.doc.*; import java.io.FileWriter; import java.io.IOException; public class ExtractText { public static void main(String[] args) throws IOException{ //加載測試文檔 Document doc = new Document(); doc.loadFromFile("test.docx"); //獲取文本保存爲String String text = doc.getText(); //將String寫入Txt writeStringToTxt(text,"提取文本.txt"); } public static void writeStringToTxt(String content, String txtFileName) throws IOException { FileWriter fWriter= new FileWriter(txtFileName,true); try { fWriter.write(content); }catch(IOException ex){ ex.printStackTrace(); }finally{ try{ fWriter.flush(); fWriter.close(); } catch (IOException ex) { ex.printStackTrace(); } } } }
文本提取結果:orm
【示例2】提取Word中的圖片htm
import com.spire.doc.Document; import com.spire.doc.documents.DocumentObjectType; import com.spire.doc.fields.DocPicture; import com.spire.doc.interfaces.ICompositeObject; import com.spire.doc.interfaces.IDocumentObject; import javax.imageio.ImageIO; import java.awt.image.RenderedImage; import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.LinkedList; import java.util.List; import java.util.Queue; public class ExtractImg { public static void main(String[] args) throws IOException { //加載Word文檔 Document document = new Document(); document.loadFromFile("test.docx"); //建立Queue對象 Queue nodes = new LinkedList(); nodes.add(document); //建立List對象 List images = new ArrayList(); //遍歷文檔中的子對象 while (nodes.size() > 0) { ICompositeObject node = (ICompositeObject) nodes.poll(); for (int i = 0; i < node.getChildObjects().getCount(); i++) { IDocumentObject child = node.getChildObjects().get(i); if (child instanceof ICompositeObject) { nodes.add((ICompositeObject) child); //獲取圖片並添加到List if (child.getDocumentObjectType() == DocumentObjectType.Picture) { DocPicture picture = (DocPicture) child; images.add(picture.getImage()); } } } } //將圖片保存爲PNG格式文件 for (int i = 0; i < images.size(); i++) { File file = new File(String.format("圖片-%d.png", i)); ImageIO.write((RenderedImage) images.get(i), "PNG", file); } } }
圖片提取結果:
(本文完)
轉載請註明出處!