Tesseract訓練

最近在用Tesseract作一個圖片識別的小應用,目標圖像只有數字和英文字母,在實際使用過程當中發現個別數識別錯誤,所以不得不研究學習Tesseract的訓練。html

http://www.cnblogs.com/cnlian/p/5765871.html 該連接是重要的參考資料,然則按照文章操做,第二步對box文件進行修正就出現問題:jTessBoxEditor沒法正確識別圖像。ide

通過閱讀jTessBoxEditor的幫助文檔,問題得以解決。其中有一段提到關鍵點:學習

You will need to provide the TIFF/Box files as input to the editor. Images to be used in training should be of 300 DPI and 1 bpp (bit per pixel) black&white or 8 bpp grayscale, uncompressed TIFF format;spa

這段話大意就是要求tiff文件的分辨率爲300DPI,1比特黑白圖像或8比特的灰度等級,無壓縮。用photoshop從新處理圖片,成功實現了識別。(這點在上訴的文章沒有說起)orm

而後就能夠對圖片進行識別的修正了。htm

其次,box文件調整完後,能夠不用編寫批處理文件,jTessBoxEditor已經實現了自動化處理:blog

相關文章
相關標籤/搜索