OCR4：Tesseract 4

時間 2019-11-06

標籤 ocr4 ocr tesseract 简体版

原文原文鏈接

Tesseract OCR 該軟件包包含一個OCR引擎 - libtesseract和一個命令行程序 - tesseract。 Tesseract 4增長了一個基於OCR引擎的新神經網絡（LSTM），該引擎專一於線路識別，但仍然支持Tesseract 3的傳統Tesseract OCR引擎，該引擎經過識別字符模式來工做。經過使用Legacy OCR Engine模式（--oem 0）啓用與Tesseract 3的兼容性。它還須要訓練有素的數據文件，這些文件支持傳統引擎，例如來自tessdata存儲庫的文件python

tesseract 4.0已經加入LSTM了，在用命令行執行的時候，添加「–oem 1」參數便可，可是pythonocr模塊裏並無提供使用oem參數的init函數，查看tesseract的源碼，capi.cpp定位到257行有git

在外部調用的時候，只須要將之前的github

handle = tesseract_raw.init(lang='eng')

修改爲：api

handle = tesseract_raw.init(lang='eng', oem=1)

便可。下載最新支持lstm的tessdata數據包，識別結果會比以前有大大的提升！如何在調用API的時候使用多語言，就如同命令行下的 -l eng+chi這種，還在摸索中網絡

tesseract 4.0： https://digi.bib.uni-mannheim.de/tesseract/函數

安裝包：https://github.com/UB-Mannheim/tesseract/wiki測試

安裝完後測試：spa

參考資料.net

相關文章

相關標籤/搜索

imagemagick+tesseract

tesseract+opencv

opencv+tesseract

python+tesseract

tesseract+tesserocr

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<