Python中pytesseract庫的使用以及注意事項

當咱們在使用pytesseract庫的時候,使用 pip install pytesseract安裝完成後,發現它並不能識別出圖片內容,而且會拋出異常pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.
這是怎麼回事呢?今天讓咱們一探究竟
python

嘗試

使用代碼git

import pytesseract
from PIL import Image

image = Image.open("./NormalImg.png")
text = pytesseract.image_to_string(image)
print(text)

報錯提示:github

raise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

官方文檔

pytesseract官方文檔:https://pypi.org/project/pytesseract/shell

是咱們缺乏了tesseract程序url

tesseract官方Github地址:https://github.com/UB-Mannheim/tesseractspa

tesseract官方Github說明https://github.com/UB-Mannheim/tesseract/wiki.net

安裝tesseract

下載地址code

Tesseract 5.0.0 32位版本:tesseract-ocr-w32-setup-v5.0.0-alpha.20200328.exe (32 bit)orm

Tesseract 5.0.0 64位版本:tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe (64 bit)圖片

新增百度雲盤連接:
連接:https://pan.baidu.com/s/1EO5tFmzn1hqY_M679eSBnw
提取碼:nyw4

導入tesseract.exe執行文件地址

添加如下導入路徑:

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

最終代碼:

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
image = Image.open("./NormalImg.png")
text = pytesseract.image_to_string(image)
print(text)

至此運行代碼不會異常,並能夠正常讀取圖片文字內容

總結

pytesseract包依賴於Tesseract執行文件,須要安裝Tesseract

固然Tesseract只能識別標準的ASCII字符串,複雜的驗證嗎就沒法使用pytesseract來讀取了


歡迎來跟博主討論Python有關的問題。

相關文章
相關標籤/搜索