Tesseract-OCR 是一款由HP實驗室開發由Google維護的開源OCR(Optical Character Recognition , 光學字符識別)引擎。與Microsoft Office Document Imaging(MODI)相比,咱們能夠不斷的訓練的庫,使圖像轉換文本的能力不斷加強;若是團隊深度須要,還能夠以它爲模板,開發出符合自身需求的OCR引擎。
GitHub 地址:https://github.com/tesseract-...
安裝包官方下載地址:https://digi.bib.uni-mannheim...
安裝包百度雲盤下載地址:https://pan.baidu.com/s/1AOsJ...git
直接執行下載好的 exe 文件,下一步、下一步默認安裝便可。github
右鍵點擊此電腦--屬性--高級系統設置--環境變量--系統變量--Pathspa
找到系統變量的 Path ,將 Tesseract-OCR 的安裝目錄添加進去:code
以下圖新建系統變量 : TESSDATA_PREFIX
變量值爲 tessdata 文件夾的路徑(在Tesseract-OCR的安裝目錄下):圖片
4.1 進入cmd 輸入下面的命令查看版本,正常運行則安裝成功:ip
tesseract --version
4.2 使用下面命令識別圖片開發
tesseract 圖片路徑 輸出文件
查看輸出的 result.txt文件:get
結果正確!cmd