使用itext抽取pdf內容

iText是著名的開放源碼的站點sourceforge的一個項目,它是一個用於生成PDF文檔的一個java開源庫。經過iText不只能夠生成PDF或rtf的文檔,並且能夠將XML、Html文件轉化爲PDF文件。若是PDF是標記的且包含一個結構樹,就能夠藉助於iText將PDF文檔轉換成XML文檔(這每每取決於PDF文檔是如何建立的)。另外還能夠從頁面中提取純文本。iText還能夠用來標識現有的PDF文檔,以及對它們進行加密等。下面給出使用iText對圖5.12所示的PDF轉換爲純文本的方法、步驟。 java

(1)在Eclipse中新建一個Java工程。 測試

(2)下載相應的iText-5.0.2.jar並放到對應的lib目錄下。在工程中建立包並建立測試類,該類包含一個inspect方法用於從一個PDF中獲取文本,它接受兩個參數,分別是PDF文件路徑和輸出流,指定要提取的PDF文件的路徑和讀取PDF所用的輸出流,好比:PDF路徑爲E://text.pdf。而後調用iText提供的PdfReader類和PdfTextExtractor類,將PDF格式的文本提取出來並寫入txt文件中。部分代碼以下: 加密

import java.io.FileOutputStream; ip

import java.io.IOException; 文檔

import java.io.PrintWriter; get

import com.itextpdf.text.DocumentException; 源碼

import com.itextpdf.text.pdf.PdfReader; string

import com.itextpdf.text.pdf.parser.PdfTextExtractor; it

public class PDF { io

 

         /** The resulting text file with info about a PDF. */

    public static final String RESULT  = "d:/ceshi.txt";//存放由pdf轉換成txt文件的路徑。

    /**

     * Main method.

     * @param args no arguments needed

     * @throws DocumentException

     * @throws IOException

     */

    public static void main(String[] args)

        throws DocumentException, IOException {

        PrintWriter writer = new PrintWriter(new FileOutputStream(RESULT));//txt文件寫入流

        String string = "E:/text.pdf";//pdf文件路徑

        inspect(writer,string); //調用讀取方法

        writer.close();

    }

    /**

     * Inspect a PDF file and write the info to a txt file

     * @param writer Writer to a text file

     * @param filename Path to the PDF file

     * @throws IOException

     */

    public static void inspect(PrintWriter writer, String filename)

        throws IOException {

        PdfReader reader = new PdfReader(filename); //讀取pdf所使用的輸出流

        int num = reader.getNumberOfPages();//得到頁數

        String content = "";  //存放讀取出的文檔內容

        for (int i = 1; i < num; i++) {

           content += PdfTextExtractor.getTextFromPage(reader, i); //讀取第i頁的文檔內容

                  }

       writer.write(content);//寫入文件內容

        writer.flush();

    }

}

相關文章
相關標籤/搜索