辰哥今天來分享一篇辦公幹貨文章：用Python批量識別發票並錄入到Excel表格。對於財務專業等學生或者公司財務人員來講，將報帳發票等彙總到excel簡直就是一個折磨。python

尤爲是到年末的時候，公司的財務人員面對一大堆的發票簡直就是苦不堪言。正好咱們學會了Python，咱們應該將Python的優點發揮起來。$#json

01.場景描述

這裏有以四張發票爲例（辰哥網上搜的），將發票圖片放到pic文件夾下。函數

隨便打開一張發票ui

提取目標：金額、名稱、納稅人識別號、開票人。url

最後將每一張發票的這四個內容保存到excel中：3d

02.準備環境

須要用到的庫以下：excel

from PIL import Image as PI
import pyocr
import pyocr.builders
from cnocr import CnOcr

安裝的命令以下：code

pip install pyocr
pip install cnocr

發票中含有中文內容，咱們須要對圖片中的中文進行識別，那麼 cnocr 是一個不錯的選擇。對象

提示：安裝好上面的庫以外，還須要安裝額外的exe文件，否則會出現下面這種錯誤blog

須要安裝的exe文件：

1. ImageMagick

2. tesseract-OCR

這兩個軟件的安裝過程就再也不贅述了，你們能夠自行搜索教程進行安裝。

03.提取內容

下面以其中一張圖片爲例，講解如何提取目標內容：金額、名稱、納稅人識別號、開票人。

讀取圖片：pic/pic1.jpg

tool = pyocr.get_available_tools()[0]
img_url = "pic/pic1.jpg"
with open(img_url, 'rb') as f:
    a = f.read()
new_img = PI.open(io.BytesIO(a))

1.提取金額

須要截取到發票中金額的位置

## 金額
left = 741
top = 420
right = 850
bottom = 445
image_text1 = new_img.crop((left, top, right, bottom))
#展現圖片
image_text1.show()

這裏的left、top、right、bottom的數值是經過屢次修改定位而來。你們根據本身的發票內容去定位便可。

接着將圖片中的數字提取出來

一樣的，下面繼續提取：名稱

2.提取名稱

left = 155
top = 450
right = 450
bottom = 470
image_obj2 = new_img.crop((left, top, right, bottom))
image_obj2.show()

這裏的名稱是中文的，我們不能再像提取金額（數字）操做。須要使用到cnocr去將圖片中的中文取出。

image_obj2.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

3.提取納稅人識別號

#納稅人識別號
left = 155
top = 470
right = 450
bottom = 490
image_text3 = new_img.crop((left, top, right, bottom))
#展現圖片
image_text3.show()

txt3 = tool.image_to_string(image_text3)
print(txt3)

將圖片中的納稅人識別號提取出來，結果以下：

4.提取開票人

left = 528
top = 550
right = 670
bottom = 600
image_obj4 = new_img.crop((left, top, right, bottom))
image_obj4.show()

image_obj4.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

因爲有中文，我們這裏一樣和提取名稱同樣，使用cnocr將圖片中的中文取出。

ok這樣咱們就將發票中的四個目標內容提取出來，接着將文件夾pic下的全部發票，進行識別將內容保存到excel。

04.批量識別發票並保存到excel

在讀取圖片以前，先將上面的四個操做封裝成函數，方便每一種發票對象進行調用。

讀取文件夾下的全部圖片。

filePath = 'pic'
pic_name = []
for i,j,name in os.walk(filePath):
    pic_name = name
for i in pic_name:
    print(i)

開始進行識別，並將結果寫入到excel中。

for i in pic_name:
    img_url = filePath+"/"+i
    with open(img_url, 'rb') as f:
        a = f.read()
    new_img = PI.open(io.BytesIO(a))
    ## 寫入csv
    outws.cell(row=count, column=1, value=text2(new_img))
    outws.cell(row=count, column=2, value=text3(new_img))
    outws.cell(row=count, column=3, value=text1(new_img))
    outws.cell(row=count, column=4, value=text4(new_img))
    count = count + 1
outwb.save("發票彙總-李運辰.xls")  # 保存結果

最後保存爲：發票彙總-李運辰.xls，其結果以下：

05.發票驗證真僞

在辰哥的交流羣裏，和小夥伴聊到這個內容時，小夥伴建議能夠加一個功能：發票驗證真僞。

全部在上面的開始識別以前（本身公司的發票可能不須要查驗這步），先調用一下第三方的接口，對發票進行識別，識別經過以後再將其提取發票中目標內容。

1.申請百度AI應用

2.獲取token

# client_id 爲官網獲取的AK， client_secret 爲官網獲取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官網獲取的AK】&client_secret=【官網獲取的SK】'
response = requests.get(host)
if response:
    print(response.json()['access_token']

這裏的client_id 爲官網獲取的AK， client_secret 爲官網獲取的SK，是上面申請好應用便可獲取

3.查驗

咱以這張圖片爲例，進行查驗

其中的發票類型對應以下：

結果以下：

感受這個結果查詢不是很好（不詳細）。下面還能夠去稅務局查詢

4.稅務局查詢發票

一樣以這張圖片爲例，進行查驗

填寫好信息點擊查驗，結果以下：

再稅務局查驗更加清晰。讀者能夠根據本身的狀況去選擇本身的方式去查驗。

06.小結

本文基本就成功實現目標要求，從效果來看仍是很是不錯的！完整源碼可由文中代碼組合而成（已所有分享在文中），感興趣的讀者能夠本身嘗試！

必定要動手嘗試****！必定要動手嘗試****！必定要動手嘗試！

最後想說的是，其實本文的案例能夠應用再其餘方面，例如

批量計算髮票金額彙總
根據發票類型批量分類
........

辦公利器！用Python批量識別發票並錄入到Excel表格