Python操做PDF-文本和圖片提取（使用PyPDF2和PyMuPDF）

時間 2020-12-25

標籤 html python git github 工具性能字體網站 this 加密欄目 Python 简体版

原文原文鏈接

PDF文件格式

現在，可移植文檔格式（PDF）屬於最經常使用的數據格式。在1990年，PDF文檔的結構由Adobe定義。PDF格式的思想是，對於通訊過程當中涉及的雙方（建立者，做者或發送者以及接收者）而言，傳輸的數據/文檔看起來徹底相同。html

工具和庫

適用於Python的PDF工具，模塊和庫的可用解決方案範圍有些混亂，須要花一點時間弄清楚什麼是什麼，以及哪些項目須要連續維護。根據咱們的研究，如下是最新的候選人：python

PyPDF2：一個Python庫，用於提取文檔信息和內容，逐頁拆分文檔，合併文檔，裁剪頁面並添加水印。PyPDF2支持未加密和加密的文檔。git
PDFMiner：徹底用Python編寫，適用於Python 2.4。對於Python 3，請使用克隆的包PDFMiner.six。這兩個軟件包都容許您解析，分析和轉換PDF文檔。這包括對PDF 1.7以及CJK語言（中文，日文和韓文）的支持，以及各類字體類型（Type1，TrueType，Type3和CID）。github
pdflib for Python：Poppler庫的擴展，爲它提供了Python綁定。它使您能夠解析，分析和轉換PDF文檔。不要將其與具備相同名稱的商業吊墜相混淆。工具
PyFPDF：一個在Python下生成PDF文檔的庫。從FPDF PHP庫移植而來，這是著名的PDFlib擴展替換，其中包含許多示例，腳本和派生類。性能
PDFTables：一項商業服務，提供從PDF文檔附帶的表格中提取的內容。提供一個API，以便PDFTables能夠用做SAAS。字體
PyX -Python圖形包：PyX是用於建立PostScript，PDF和SVG文件的Python包。它結合了PostScript繪圖模型的抽象和TeX / LaTeX接口。這些基元能夠構建複雜的任務，例如以可發佈的質量建立2D和3D繪圖。網站
ReportLab：一個雄心勃勃的，具備行業實力的圖書館，主要致力於精確建立PDF文檔。免費提供開放源代碼版本和名爲ReportLab PLUS的商業加強版本。this
PyMuPDF（又稱「 fitz」）：MuPDF的Python綁定，這是一種輕量級的PDF和XPS查看器。該庫能夠訪問PDF，XPS，OpenXPS，epub，漫畫和小說書格式的文件，而且以其最佳性能和高渲染質量而聞名。加密
pdfrw：一個基於Python的純PDF解析器，用於讀寫PDF。它忠實地再現矢量格式而無需光柵化。與ReportLab結合使用時，它有助於在使用ReportLab建立的新PDF中重用現有PDF的一部分。

圖書館	用於
PyPDF2	讀
PyMuPDF	讀
pdflib	讀
PDF表格	讀
PDFMiner.six	讀
PDF查詢	讀
pdfrw	讀，寫/創做
PyFPDF	寫/創做

咱們將重點介紹PyPDF2和PyMuPDF，並說明如何以最簡單的方式提取文本和圖像。爲了瞭解PyPDF2的用法，官方文檔和許多其餘資源提供的示例的組合對您有所幫助。相比之下，官方PyMuPDF文檔更加清晰，而且使用該庫的速度也大大加快。

使用PyPDF2提取文本

$ pip3 install PyPDF2

清單1首先導入了PdfFileReader該類。接下來，使用該類打開文檔，並使用getDocumentInfo()方法提取文檔信息，使用提取頁數getDocumentInfo()以及第一頁的內容。

請注意，PyPDF2從0開始計數頁面，這就是該調用pdf.getPage(0)檢索文檔第一頁的緣由。最終，提取的信息被打印到stdout。

清單1：提取文檔信息和內容。

#!/usr/bin/python

from PyPDF2 import PdfFileReader

pdf_document = "example.pdf"
with open(pdf_document, "rb") as filehandle:
    pdf = PdfFileReader(filehandle)
    info = pdf.getDocumentInfo()
    pages = pdf.getNumPages()

    print (info)
    print ("number of pages: %i" % pages)

    page1 = pdf.getPage(0)
    print(page1)
    print(page1.extractText())

如上面的圖1所示，提取的文本是連續打印的。沒有段落或句子分隔。如PyPDF2文檔中所述，全部文本數據都按照在頁面內容流中提供的順序返回，而且依靠它可能會致使一些意外。這主要取決於PDF文檔的內部結構，以及PDF編寫器過程如何生成PDF指令流。

使用PyMuPDF提取文本

可從PyPi網站上獲取PyMuPDF，並在終端中使用如下命令安裝軟件包：

$ pip3 install PyMuPDF

顯示文檔信息，打印頁數以及提取PDF文檔的文本的方式與PyPDF2類似（請參見清單2）。要導入的模塊名爲fitz，並返回到PyMuPDF的先前名稱。

清單2：使用PyMuPDF從PDF文檔中提取內容。

#!/usr/bin/python

import fitz

pdf_document = "example.pdf"
doc = fitz.open(pdf_document)
print ("number of pages: %i" % doc.pageCount)
print(doc.metadata)

page1 = doc.loadPage(0)
page1text = page1.getText("text")
print(page1text)

PyMuPDF的優勢是能夠保持原始文檔結構完整-帶有換行符的整個段落都保留在PDF文檔中（參見圖2）。

使用PyMuPDF從PDF提取圖像

PyMuPDF使用該方法簡化了從PDF文檔提取圖像的過程getPageImageList()。清單3基於PyMuPDF Wiki頁面上的示例，並逐頁地將PDF中的全部圖像提取並保存爲PNG文件。若是圖像具備CMYK色彩空間，則將首先將其轉換爲RGB。

清單3：提取圖像

#!/usr/bin/python

import fitz

pdf_document = fitz.open("file.pdf")
for current_page in range(len(pdf_document)):
    for image in pdf_document.getPageImageList(current_page):
        xref = image[0]
        pix = fitz.Pixmap(pdf_document, xref)
        if pix.n < 5:        # this is GRAY or RGB
            pix.writePNG("page%s-%s.png" % (current_page, xref))
        else:                # CMYK: convert to RGB first
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG("page%s-%s.png" % (current_page, xref))
            pix1 = None
        pix = None

在400頁PDF上運行此Python腳本，它在不到3秒的時間內提取了117張圖像，這真是了不得。單個圖像以PNG格式存儲。爲了保持原始圖像的格式和大小，而不是轉換爲PNG，請查看PyMuPDF Wiki中腳本的擴展版本。

使用PyPDF2將PDF拆分爲頁面

對於此示例，首先須要同時導入PdfFileReader和和PdfFileWriter類。而後，咱們打開PDF文件，建立一個閱讀器對象，並使用閱讀器對象的getNumPages方法遍歷全部頁面。

在for循環內部，咱們建立的新實例PdfFileWriter，該實例尚不包含任何頁面。而後，使用pdfWriter.addPage()方法將當前頁面添加到咱們的writer對象。此方法接受一個頁面對象，咱們使用該PdfFileReader.getPage()方法獲取該對象。

下一步是建立一個惟一的文件名，咱們使用原始文件名加上單詞「 page」以及頁碼來完成。咱們在當前頁碼上加1，由於PyPDF2會計算從零開始的頁碼。

最後，咱們以「寫二進制」模式（mode wb）打開新文件名，並使用該類的write()方法pdfWriter將提取的頁面保存到磁盤。

清單4：將PDF拆分爲單個頁面。

#!/usr/bin/python

from PyPDF2 import PdfFileReader, PdfFileWriter

pdf_document = "example.pdf"
pdf = PdfFileReader(pdf_document)

for page in range(pdf.getNumPages()):
    pdf_writer = PdfFileWriter()
    current_page = pdf.getPage(page)
    pdf_writer.addPage(current_page)

    outputFilename = "example-page-{}.pdf".format(page + 1)
    with open(outputFilename, "wb") as out:
        pdf_writer.write(out)

        print("created", outputFilename)

查找全部包含文本的頁面

這個用例很是實用，而且工做方式相似於pdfgrep。該腳本使用PyMuPDF返回包含給定搜索字符串的全部頁碼。頁面一頁接一頁地加載，藉助該searchFor()方法，將檢測到搜索字符串的全部出現狀況。若是匹配則在上面印有相應的信息stdout。

清單5：搜索給定的文本。

#!/usr/bin/python

import fitz

filename = "example.pdf"
search_term = "invoice"
pdf_document = fitz.open(filename):

for current_page in range(len(pdf_document)):
    page = pdf_document.loadPage(current_page)
    if page.searchFor(search_term):
        print("%s found on page %i" % (search_term, current_page))

下面的圖5顯示了一本400頁的書中「 Debian GNU / Linux」一詞的搜索結果。