最近須要把PDF解析爲文字,查了查python的模塊,發現PDFminer3k能知足需求。我使用的是 windows平臺下的python3.6,python2的則下載pdfminer。python
首先下載:直接 pip install pdfminer3k。git
在網上找了教程代碼跑了下本身用word轉的pdf測試文件,能夠解析成文字。github
教程網址:http://blog.csdn.net/PianoOrRock/article/details/70666286?reloadwindows
而後運行本身真正須要的PDF時,報錯:測試
剛開始我天真的覺得是pdf加密了,後來查了下發現pdfminer3k自帶能解密一些簡單的加密方法,且遇到加密報錯不是這樣的。字體
而後從新仔細研究報錯,以爲應該是pdf的字體的問題,pdfminer3k不能解析特殊字體,須要下載相應的字體包來解決。網站
字體包下載網站:https://github.com/euske/pdfminer/pull/71/commits/2103e5875ef04cfaf424b25d2fd0dc9535a90714#diff-11a7e5c9b1cb16f0ae7d0276f643956d編碼
下載好了GBK-EUC-H和UniGB-UCS2-H不要解壓直接放在 pdfminer/cmap文件夾下。
加密
運行後繼續報錯:spa
PDFMiner裏並無GBK-EUC-H和UniGB-UCS2這兩個編碼的解碼文件,因此輸出了一堆cid,繼續去上面的網站找到這種編碼解碼包,下載後不要解壓直接放到上面的文件夾裏:
運行,解析成功!