Tesseract 是一個開源的 OCR 引擎,能夠識別多種格式的圖像文件並將其轉換成文本,最初由 HP 公司開發,後來由 Google 維護。下載地址:https://digi.bib.uni-mannheim.de/tesseract/測試
其中文件名中帶有 dev 的爲開發版本,不帶 dev 的爲穩定版本。spa
安裝時能夠添加支持的語言包,以下界面最後一個選項點開選擇,咱們能夠選擇簡體中文 Chiness(Simplified)。3d
安裝完成後還須要將安裝路徑添加至環境變量。blog
打開 cmd,輸入命令 tesseract -v,看到輸出版本信息即表明安裝成功。圖片
識別命令:tesseract 圖片路徑 結果文件名 -l 語言開發
一、將 cmd 切換到圖片所在路徑,則能夠只輸入圖片名,不然須要全路徑get
二、結果文件名不能夠加後綴,一定會自動加 .txt 後綴,若是結果文件名寫 a.txt,則最後輸出的文件名爲 a.txt.txt。cmd
三、-l 是英文字母L,不是數字1,language的意思。it
四、語言英文爲 eng,簡體中文爲 chi_sim變量
截了個谷歌的圖片來測試
輸入命令:tesseract 1.png a -l eng,結果以下,識別正確
咱們嘗試用簡體中文試試
識別就有誤了。
中文的識別能夠另外截圖試試,只是正確率並不高。
我 tesseract 是安裝在 C 盤的,在 C 盤運行命令識別沒問題,但在 D 盤打開 cmd 運行命令就報錯了:
Error opening data file ….
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your 「tessdata」 directory.
Failed loading language ‘eng’
Teseract couldn’t load any languages!
Counld not initialize tesseract
意思就是要將 tessdata 的父文件夾路徑設置爲名爲 TESSDATA_PREFIX 的環境變量值。設置完成以後須要重啓電腦,不然依然報錯。