開發環境:Windows8.0 X64位 eclipse3.2java
版本號:xpdfbin-win-3.04 xpdf-chinese-simplified.tar.gzeclipse
下載路徑:ftp://ftp.foolabs.com/pub/xpdf/字體
操做步驟:編碼
下載xpdf和中文字體,分別解壓縮。code
創建xpdf根目錄 d:\xpdf,xml
(1)並將xpdfbin-win-3.04\bin64目錄下全部文件複製到 d:\xpdf 下。ip
(2)將xpdf-chinese-simplified 整個文件夾複製到 d:\xpdf 下。ci
複製 xpdfbin-win-3.04\doc 路徑下的 sample-xpdfrc 文件到 d:\xpdf 下,並更名爲 xpdfrc。unicode
(1)修改文件 xpdfrc 第73行,將 textEncoding UTF-8 註釋打開,指定編碼爲UTF-8,開發
(2)並在下面增長 textPageBreaks no 參數,意思是在pdf文檔的兩頁間不加入分行符。
(3)在此文件最後增長如下內容,聲明中文字體文件
#----- begin Chinese Simplified support package (2011-sep-02) cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf #----- end Chinese Simplified support package
實驗代碼
@Test public void xpdfParser(){ try { cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web數據挖掘綜述.pdf d:\\datadir\\pdftxtdir\\Web數據挖掘綜述.txt "; Runtime.getRuntime().exec(cmd); } catch (IOException e) { e.printStackTrace(); } }以上代碼不完整,主要是xpdf路徑設置可能會有問題,另外就是中文字庫文件路徑設置必須正確,不然導出的txt文件沒有內容。
如有不清楚的地方,或者發現問題,可回覆我,多謝!