最近要作文字識別,不讓直接用別人的接口,因此只能嘗試去用開源的類庫。tesseract-ocr是惠普公司開源的一個文字識別項目,經過它能夠快速搭建圖文識別系統,幫助咱們開發出能識別圖片的ocr系統。由於Windows環境開發,我也就必須在windows環境安裝系統。java
第一步:下載安裝包git
根據https://github.com/tesseract-ocr/tesseract/wiki,我找到非官方的安裝包,好像我只看到64位的安裝包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,下載後直接安裝便可,可是要記得你的安裝目錄,咱們等會配置環境變量要用。github
若是不是作英文的圖文識別,還須要下載其餘語言的識別包https://github.com/tesseract-ocr/tesseract/wiki/Data-Files。npm
簡體字識別包:https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddatawindows
繁體字識別包:https://github.com/tesseract-ocr/tessdata/raw/4.0/chi_tra.traineddata安全
第二步:安裝接口
直接執行下載好的tesseract-ocr-setup-4.00.00dev.exe,下一步、下一步安裝。圖片
第三步:配置環境變量開發
注意:個人系統是win7,其餘系統應該差很少,跟配置java變量同樣it
複製你的安裝地址,個人是安裝在C:\Program Files (x86)\Tesseract-OCR,界面以下:
複製安裝路徑「C:\Program Files (x86)\Tesseract-OCR」,進入「控制面板\系統和安全\系統」,點擊
「系統保護」
進入到如下界面:
點擊環境變量,進入配置如下界面:
把剛纔的安裝路徑「C:\Program Files (x86)\Tesseract-OCR」添加到紅線劃的PATH和Path,注意,添加時候開頭用「;」跟以前的變量隔開,結尾以「;」結尾。下面是個人配置信息樣本:
C:\Users\Administrator\AppData\Roaming\Composer\vendor\bin;C:\Users\Administrator\AppData\Roaming\npm;C:\Program Files (x86)\Tesseract-OCR;
配置好了點擊保存。
打開命令終端,輸入:tesseract -v,能夠看到版本信息
若是出現報錯,估計是環境變量沒配置好。
到這裏,咱們就算安裝完成了,可是,咱們的系統仍是沒法識別中文的,咱們要去下載簡體漢字、繁體漢字語言包(上文給了地址了),下載好以後放到安裝目錄的tessconfigs目錄下便可。
補充:由於沒有配置全局變量,沒法跨盤執行數據轉換,這裏咱們在環境變量那增長一個配置信息
系統變量—->新建:
增長一個TESSDATA_PREFIX變量名,變量值仍是個人安裝路徑C:\Program Files (x86)\Tesseract-OCR\tessdata;
須要安裝numpy模塊