使用PDFminer3k解析pdf爲文字遇到:WARING:root:GBK-EUC-H

最近須要把PDF解析爲文字,查了查python的模塊,發現PDFminer3k能知足需求。我使用的是 windows平臺下的python3.6,python2的則下載pdfminer。python

首先下載:直接 pip install pdfminer3k。git

在網上找了教程代碼跑了下本身用word轉的pdf測試文件,能夠解析成文字。github

教程網址:http://blog.csdn.net/PianoOrRock/article/details/70666286?reloadwindows

而後運行本身真正須要的PDF時,報錯:測試

剛開始我天真的覺得是pdf加密了,後來查了下發現pdfminer3k自帶能解密一些簡單的加密方法,且遇到加密報錯不是這樣的。字體

而後從新仔細研究報錯,以爲應該是pdf的字體的問題,pdfminer3k不能解析特殊字體,須要下載相應的字體包來解決。網站

字體包下載網站:https://github.com/euske/pdfminer/pull/71/commits/2103e5875ef04cfaf424b25d2fd0dc9535a90714#diff-11a7e5c9b1cb16f0ae7d0276f643956d編碼

下載好了GBK-EUC-H和UniGB-UCS2-H不要解壓直接放在 pdfminer/cmap文件夾下。
加密

運行後繼續報錯:spa

PDFMiner裏並無GBK-EUC-H和UniGB-UCS2這兩個編碼的解碼文件,因此輸出了一堆cid,繼續去上面的網站找到這種編碼解碼包,下載後不要解壓直接放到上面的文件夾裏:

 

運行,解析成功!

相關文章
相關標籤/搜索