Python-PDF轉爲Word

時間 2019-11-20

標籤 python pdf 轉爲 word 欄目 Python 简体版

原文原文鏈接

手把手 | 20行Python代碼教你批量將PDF轉爲Word

做者｜丁彥軍python

給各位帶來了一個免費簡單快速的方法，手把手教你用Python批量處理PDF格式文件，獲取本身想要的內容，存爲word形式。學習

在實現PDF轉Word功能以前，咱們須要一個python的編寫和運行環境，同時安裝好相關的依賴包。對於python環境，咱們推薦使用PyCharm。在本地電腦環境，anaconda提供了很是便利的安裝和部署。編碼

PDF轉Word功能所需的依賴包以下：spa

PDFParser（文檔分析器）對象
PDFDocument（文檔對象）blog
PDFResourceManager（資源管理器）ip
PDFPageInterpreter（解釋器）資源
PDFPageAggregator（聚合器）文檔
LAParams（參數分析器）字符串

前期準備工做

說明：本文是在Windows7下使用python最新的3.6版本

1.安裝pdfminer3k模塊

安裝anaconda後，直接能夠經過pip安裝

2.若安裝不成功，能夠試試下面方法

首先下載pdfminer3k：https://pypi.python.org/pypi/pdfminer3k；而後安裝pdfminer，將下載好的pdfminer3k解壓到D:或其餘合適的盤符，經過win+r 打開運行窗口，輸入cmd；輸入D:切換到D盤，cd pdfminer3k(pdf解壓的文件夾)，輸入setup.py install安裝軟件。

最終顯示Finished，則表明成功

代碼實操

1.導入相關包

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator

總體思路爲：構造文檔對象，解析文檔對象，提取所需內容

構造文檔對象

構造解釋器

2.導入須要解析的PDF文件

將所需解析的文件與執行代碼放到同一個目錄下，如圖：

test.pdf內容

3.具體代碼以下：

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

def parse:
#rb以二進制讀模式打開本地pdf文件
fn = open('test.pdf','rb')
#建立一個pdf文檔分析器
parser = PDFParser
#建立一個PDF文檔
doc = PDFDocument
#鏈接分析器 與文檔對象
parser.set_document
doc.set_parser

# 提供初始化密碼doc.initialize("lianxipython")
# 若是沒有密碼 就建立一個空的字符串
doc.initialize("")
# 檢測文檔是否提供txt轉換，不提供就忽略
if not doc.is_extractable:
raise PDFTextExtractionNotAllowed

else:
#建立PDf資源管理器
resource = PDFResourceManager
#建立一個PDF參數分析器
laparams = LAParams
#建立聚合器,用於讀取文檔的對象
device = PDFPageAggregator(resource,laparams=laparams)
#建立解釋器，對文檔編碼，解釋成Python可以識別的格式
interpreter = PDFPageInterpreter(resource,device)
# 循環遍歷列表，每次處理一頁的內容
# doc.get_pages 獲取page列表
for page in doc.get_pages:
#利用解釋器的process_page方法解析讀取單獨頁數
interpreter.process_page(page)
#使用聚合器get_result方法獲取內容
layout = device.get_result
#這裏layout是一個LTPage對象,裏面存放着這個page解析出的各類對象
for out in layout:
#判斷是否含有get_text方法，獲取咱們想要的文字
if hasattr(out,"get_text"):
print(out.get_text)
with open('test.txt','a') as f:
f.write(out.get_text+'\n')

if __name__ == '__main__':
parse

最終獲得的test.txt結果以下：