軟件安裝筆記3:tesseract-ocr for mac和homebrew

1、下載地址:

tesseract github下載地址:https://github.com/tesseract-ocr/tesseract/wikihtml

2、安裝步驟

官方對於mac版本提供了兩種安裝方式:brew 和macportsgit

macports 安裝能夠參考:https://blog.csdn.net/Cloudox_/article/details/72841935github

此處選擇brew安裝,參照下圖工具

安裝homebrew

參見官網測試

過程會比較慢,等等就好。spa

若是不想等,能夠參考:https://blog.csdn.net/qq_35624642/article/details/79682979.net

安裝好後,查看版本:brew --version3d

mac 上通常能夠在/usr/local 路徑上找到homebrew 的相關文件code

接下來執行:htm

brew install tesseract 此處只選擇安裝tesseract

brew install --with-training-tools tesseract //安裝tesseract, 同時安裝訓練工具
brew install --all-languages tesseract //安裝tesseract,同時它還會安裝全部語言 不推薦,能夠本身選擇安裝
brew install --all-languages --with-training-tools tesseract //安裝附加組件

 便可自動安裝完畢,且獨立生成文件夾,之後卸載也很方便,有點相似虛擬環境

 

/usr/local/Cellar/tesseract/4.0.0_1/share/tessdata/  這個路徑下面放識別的語言包

若是上面沒有本身想要的,能夠上https://github.com/tesseract-ocr/tessdata 這裏進行下載

注:數字和英文組合的驗證碼就用eng.traineddata/enm.traineddata,中文的話用chi_sim.traineddata。若是上面提供的語言包識別不是很準,能夠訓練本身的語言包,這裏不在展開,後續在研究。

 

3、測試

方法一:

tesseract 的調用相對簡單,以下圖

只要在終端執行:

tesseract image.png result

就會在當前目錄生成一個result.txt文件,裏面即爲識別的結果。

準確率還挺高的。

 

方法二:

經過pytesseract模塊

pip install pytesseract

pytesseract模塊通常與PIL模塊一塊兒使用,用於打開圖片

安裝好pytesseract 後,要進行一個tesseract_cmd 設置,要否則容易報錯誤:

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path

解決辦法,打開本地安裝pytesseract包中的pytesseract.py文件

在第35行中,把tesseract_cmd = 'tesseract' 後面的路徑改成本身本地tesseract執行文件的路徑。如我本機的文件路徑爲:

tesseract_cmd = '/usr/local/Cellar/tesseract/4.0.0_1/bin/tesseract'

 

 生成test.py文件。

from PIL import Image import pytesseract if __name__=='__main__': text = pytesseract.image_to_string(Image.open('image.png'),lang='eng') print(text)

運行結果:

 

 

參考:http://www.javashuo.com/article/p-gyhizmrd-ku.html

相關文章
相關標籤/搜索