基於Python37配置圖片文字識別

 

以管理員權限打開cmd控制檯。html

1.如何安裝PILpython

輸入下面命令:pip install Pillowgit

參考:http://www.javashuo.com/article/p-tkpqzmow-kd.htmlgithub

2.安裝pytesseract算法

輸入下面命令:pip install pytesseractwindows

詳細見下圖:測試

3.安裝文字識別包tesseract-ocr(http://www.javashuo.com/article/p-hbihbpiu-hz.htmlspa

tesseract識別算法開源代碼見https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windowscode

下載以下連接中的安裝exe文件進行安裝:htm

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0-rc3.20181014.exe

安裝路徑以下:C:\Program Files (x86)\Tesseract-OCR

注意:請將全部能夠勾選的都勾選上

4.修改Python37中的pytesseract.py配置。

打開文件C:\Program Files\Python37\Lib\site-packages\pytesseract\pytesseract.py,將下面語句找到

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'

替換成

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
#tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

 5.測試一下安裝是否成功。

在D盤底下新建一個文件夾tesseractTest,並在該文件夾底下新建一個文件testTesseract.py, 內容以下:

1 # _*_ coding: utf-8 _*_
2 from PIL import Image
3 import pytesseract
4 
5 aaa = pytesseract.image_to_string(Image.open('aaa.png'), lang='chi_sim')
6 print(aaa)

新開一個cmd終端,執行以下語句:

python testTesseract.py

能夠看到下圖中的輸出:

其中aaa.png和bbb.png內容以下:

aaa.png

bbb.png

相關文章
相關標籤/搜索