XPDF3.04抽取PDF中的中文文本

時間 2019-11-25

標籤 xpdf3.04 xpdf 抽取 pdf 中文文本简体版

原文原文鏈接

開發環境：Windows8.0 X64位 eclipse3.2java

版本號：xpdfbin-win-3.04 xpdf-chinese-simplified.tar.gzeclipse

下載路徑：ftp://ftp.foolabs.com/pub/xpdf/字體

操做步驟：編碼

下載xpdf和中文字體，分別解壓縮。code
創建xpdf根目錄 d:\xpdf，xml
（1）並將xpdfbin-win-3.04\bin64目錄下全部文件複製到 d:\xpdf 下。ip
（2）將xpdf-chinese-simplified 整個文件夾複製到 d:\xpdf 下。ci
複製 xpdfbin-win-3.04\doc 路徑下的 sample-xpdfrc 文件到 d:\xpdf 下，並更名爲 xpdfrc。unicode
（1）修改文件 xpdfrc 第73行，將 textEncoding UTF-8 註釋打開，指定編碼爲UTF-8，開發
（2）並在下面增長 textPageBreaks no 參數，意思是在pdf文檔的兩頁間不加入分行符。
（3）在此文件最後增長如下內容，聲明中文字體文件

#----- begin Chinese Simplified support package (2011-sep-02)
cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
#displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
#fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
#----- end Chinese Simplified support package

實驗代碼

@Test
public void xpdfParser(){

     try {
        cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web數據挖掘綜述.pdf d:\\datadir\\pdftxtdir\\Web數據挖掘綜述.txt ";
        Runtime.getRuntime().exec(cmd);
    } catch (IOException e) {
        e.printStackTrace();
    }
 }

以上代碼不完整，主要是xpdf路徑設置可能會有問題，另外就是中文字庫文件路徑設置必須正確，不然導出的txt文件沒有內容。

如有不清楚的地方，或者發現問題，可回覆我，多謝！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。