XPDF3.04抽取PDF中的中文文本

開發環境:Windows8.0 X64位          eclipse3.2java

版本號:xpdfbin-win-3.04      xpdf-chinese-simplified.tar.gzeclipse

下載路徑:ftp://ftp.foolabs.com/pub/xpdf/字體

操做步驟:編碼

  1. 下載xpdf和中文字體,分別解壓縮。code

  2. 創建xpdf根目錄 d:\xpdf,xml

    (1)並將xpdfbin-win-3.04\bin64目錄下全部文件複製到 d:\xpdf 下。ip

    (2)將xpdf-chinese-simplified 整個文件夾複製到 d:\xpdf 下。ci

  3. 複製 xpdfbin-win-3.04\doc 路徑下的 sample-xpdfrc 文件到 d:\xpdf 下,並更名爲 xpdfrc。unicode

    (1)修改文件 xpdfrc 第73行,將 textEncoding UTF-8 註釋打開,指定編碼爲UTF-8,開發

    (2)並在下面增長 textPageBreaks no 參數,意思是在pdf文檔的兩頁間不加入分行符。 

    (3)在此文件最後增長如下內容,聲明中文字體文件

  4. #----- begin Chinese Simplified support package (2011-sep-02)
    cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
    unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
    unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
    unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
    cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
    toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
    #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
    #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
    #----- end Chinese Simplified support package
  5. 實驗代碼

     

  6. @Test
    public void xpdfParser(){
    
         try {
            cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web數據挖掘綜述.pdf d:\\datadir\\pdftxtdir\\Web數據挖掘綜述.txt ";
            Runtime.getRuntime().exec(cmd);
        } catch (IOException e) {
            e.printStackTrace();
        }
     }
    以上代碼不完整,主要是xpdf路徑設置可能會有問題,另外就是中文字庫文件路徑設置必須正確,不然導出的txt文件沒有內容。

    如有不清楚的地方,或者發現問題,可回覆我,多謝!

相關文章
相關標籤/搜索