Tesseract OCR 該軟件包包含一個OCR引擎 - libtesseract和一個命令行程序 - tesseract。 Tesseract 4增長了一個基於OCR引擎的新神經網絡(LSTM),該引擎專一於線路識別,但仍然支持Tesseract 3的傳統Tesseract OCR引擎,該引擎經過識別字符模式來工做。經過使用Legacy OCR Engine模式(--oem 0)啓用與Tesseract 3的兼容性。它還須要訓練有素的數據文件,這些文件支持傳統引擎,例如來自tessdata存儲庫的文件python
tesseract 4.0已經加入LSTM了,在用命令行執行的時候,添加 「–oem 1」參數便可,可是pythonocr模塊裏並無提供使用oem參數的init函數,查看tesseract的源碼,capi.cpp定位到257行有git
在外部調用的時候,只須要將之前的github
修改爲:api
便可。下載最新支持lstm的tessdata數據包,識別結果會比以前有大大的提升!如何在調用API的時候使用多語言,就如同命令行下的 -l eng+chi這種,還在摸索中網絡
tesseract 4.0: https://digi.bib.uni-mannheim.de/tesseract/函數
安裝包:https://github.com/UB-Mannheim/tesseract/wiki測試
安裝完後測試:spa
參考資料.net