tesseract github下載地址:https://github.com/tesseract-ocr/tesseract/wikihtml
官方對於mac版本提供了兩種安裝方式:brew 和macportsgit
macports 安裝能夠參考:https://blog.csdn.net/Cloudox_/article/details/72841935github
此處選擇brew安裝,參照下圖工具
參見官網:測試
過程會比較慢,等等就好。spa
若是不想等,能夠參考:https://blog.csdn.net/qq_35624642/article/details/79682979.net
安裝好後,查看版本:brew --version3d
mac 上通常能夠在/usr/local 路徑上找到homebrew 的相關文件code
接下來執行:htm
brew install tesseract 此處只選擇安裝tesseract
brew install --with-training-tools tesseract //安裝tesseract, 同時安裝訓練工具
brew install --all-languages tesseract //安裝tesseract,同時它還會安裝全部語言 不推薦,能夠本身選擇安裝
brew install --all-languages --with-training-tools tesseract //安裝附加組件
便可自動安裝完畢,且獨立生成文件夾,之後卸載也很方便,有點相似虛擬環境
/usr/local/Cellar/tesseract/4.0.0_1/share/tessdata/ 這個路徑下面放識別的語言包
若是上面沒有本身想要的,能夠上https://github.com/tesseract-ocr/tessdata 這裏進行下載
注:數字和英文組合的驗證碼就用eng.traineddata/enm.traineddata,中文的話用chi_sim.traineddata。若是上面提供的語言包識別不是很準,能夠訓練本身的語言包,這裏不在展開,後續在研究。
tesseract 的調用相對簡單,以下圖
只要在終端執行:
tesseract image.png result
就會在當前目錄生成一個result.txt文件,裏面即爲識別的結果。
準確率還挺高的。
經過pytesseract模塊
pip install pytesseract
pytesseract模塊通常與PIL模塊一塊兒使用,用於打開圖片
安裝好pytesseract 後,要進行一個tesseract_cmd 設置,要否則容易報錯誤:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
解決辦法,打開本地安裝pytesseract包中的pytesseract.py文件
在第35行中,把tesseract_cmd = 'tesseract' 後面的路徑改成本身本地tesseract執行文件的路徑。如我本機的文件路徑爲:
tesseract_cmd = '/usr/local/Cellar/tesseract/4.0.0_1/bin/tesseract'
生成test.py文件。
from PIL import Image import pytesseract if __name__=='__main__': text = pytesseract.image_to_string(Image.open('image.png'),lang='eng') print(text)
運行結果: