使用PDFminer3k解析pdf爲文字遇到：WARING：root:GBK-EUC-H

時間 2019-12-10

標籤使用 pdfminer3k pdfminer 解析 pdf 文字遇到 waring root gbk euc 欄目 Linux 简体版

原文原文鏈接

最近須要把PDF解析爲文字，查了查python的模塊，發現PDFminer3k能知足需求。我使用的是 windows平臺下的python3.6，python2的則下載pdfminer。python

首先下載：直接 pip install pdfminer3k。git

在網上找了教程代碼跑了下本身用word轉的pdf測試文件，能夠解析成文字。github

教程網址：http://blog.csdn.net/PianoOrRock/article/details/70666286?reloadwindows

而後運行本身真正須要的PDF時，報錯：測試

剛開始我天真的覺得是pdf加密了，後來查了下發現pdfminer3k自帶能解密一些簡單的加密方法，且遇到加密報錯不是這樣的。字體

而後從新仔細研究報錯，以爲應該是pdf的字體的問題，pdfminer3k不能解析特殊字體，須要下載相應的字體包來解決。網站

字體包下載網站：https://github.com/euske/pdfminer/pull/71/commits/2103e5875ef04cfaf424b25d2fd0dc9535a90714#diff-11a7e5c9b1cb16f0ae7d0276f643956d編碼

下載好了GBK-EUC-H和UniGB-UCS2-H不要解壓直接放在 pdfminer/cmap文件夾下。
加密

運行後繼續報錯：spa

PDFMiner裏並無GBK-EUC-H和UniGB-UCS2這兩個編碼的解碼文件，因此輸出了一堆cid，繼續去上面的網站找到這種編碼解碼包，下載後不要解壓直接放到上面的文件夾裏：

運行，解析成功！

相關標籤/搜索