下載安裝: tesseractlinux
安裝 pytesseract 和 Pillowgit
pip install pytesseract pip install Pillow
這裏只說 winsows 系統下的安裝,linux 基本不會有什麼問題。
在利用 pytesseract 調用 tesseract 時遇到如下錯誤:github
FileNotFoundError: [WinError 2] 系統找不到指定的文件。
因而我看了下pytesseract源碼,發現有這樣的一行windows
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'tesseract'
估計 windows 系統要手工添加環境變量,因此才產生的問題,因而又將 tesseract 添加到環境變量 Path 中,但仍是會報錯:測試
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\eng.traineddata')
這個是eng.traineddata
文件路徑有誤纔會出現的錯誤。google
解決辦法:spa
先查看tesseract有沒有這個語言包,有CMD
中輸入命令:code
tesseract --list-langs
結果:圖片
List of available languages (2): eng osd
而後再查看而後再google搜索一下問題,發現仍是 tesseract 的環境變量的問題,找到了下面這一句話ip
Please make sure the TESSDATA_PREFIX environment variableisset to the
parent directory of your"tessdata"directory.
因而新建的一個TESSDATA_PREFIX
變量,指定tessdata
的上級目錄也就是C:\Program Files (x86)\Tesseract-OCR
安裝完成。
先用一個簡單的驗證碼測試一下:
from PIL import Image import pytesseract result = pytesseract.image_to_string(Image.open(r'F:\PIN_ws\692.jpg',"r"), lang='eng') print(result)