Tesseract-OCR-03-圖片文字識別
本篇介紹使用 Tesseract-OCR 作圖片文字識別,識別手寫文字的時候,正確率能達到 90%,當訓練後正確率是極高的。這裏介紹的圖片文字識別,能夠識別英文,數字和中文等spa
Tesseract-OCR 圖片文字識別
- **Tesseract:**一款由HP實驗室開發由Google維護的開源OCR,咱們能夠不斷的訓練的庫,使圖像轉換文本的能力不斷加強;若是團隊深度須要,還能夠以它爲模板,開發出符合自身需求的OCR引擎
- 若是尚未安裝 Tesseract-OCR 請參考:
- 固然配置環境也都下載上面那篇文章了,一步一圖很詳細
正題 圖片文字識別
tesseract num1.jpg num1.net
- 這裏 -l eng 是設置語言,不寫的話,默認是 eng 也就是英語
- 結果:
- 注意:
識別手寫英文
- 識別圖片 eng2.jpg
- 輸入命令:保存爲 eng2.txt
- 咱們對比一下結果:
- 這裏是識別錯了一個字母,把 ig 錯誤的識別成 S,包括上面那張 數字也是錯了一個
- 那也就是咱們要努力的方向了
識別中文
- 這裏識別中文只須要將 -l 參數改爲 chi_sim 例如:
- 對 有中文文字的圖片 chi1.jpg ,進入圖片路徑,使用一下命令:
**tesseract chi1.jpg chi1 -l chi_sim **3d
識別英文和數字夾雜驗證碼
- 例如:
- 對 圖片 timg.jpg ,進入圖片路徑,使用一下命令:
tesseract timg.jpg timgblog
Tesseract 訓練:
- 咱們能夠經過重複的訓練,用更多的數據去訓練,就能夠達到更多高的識別正確率
- 咱們使用 jTessBoxEditor 訓練
- 因爲 jTessBoxEditor 的安裝和訓練,內容比較多,我再整理一篇
<hr>- 本筆記不容許任何我的和組織轉載圖片