Tesseract-OCR-03-圖片文字識別

Tesseract-OCR-03-圖片文字識別

本篇介紹使用 Tesseract-OCR 作圖片文字識別,識別手寫文字的時候,正確率能達到 90%,當訓練後正確率是極高的。這裏介紹的圖片文字識別,能夠識別英文,數字和中文等spa

Tesseract-OCR 圖片文字識別

  • **Tesseract:**一款由HP實驗室開發由Google維護的開源OCR,咱們能夠不斷的訓練的庫,使圖像轉換文本的能力不斷加強;若是團隊深度須要,還能夠以它爲模板,開發出符合自身需求的OCR引擎
  • 若是尚未安裝 Tesseract-OCR 請參考:
  • 固然配置環境也都下載上面那篇文章了,一步一圖很詳細

正題 圖片文字識別

  • 我搜集了幾個素材,懶得找能夠直接下載:
  • https://pan.baidu.com/s/10XxYJa19KIa8-ENdQkhhHg 這裏寫圖片描述
  • 這裏我是將圖片放在了:D:\p
  • 咱們須要在 cmd 進入此目錄
    • 使用 cd 目錄名 進入目錄
    • 使用 cd.. 返回上一級目錄
  • 使用 Tesseract 命令: tesseract 文件名 保存的txt文件名 -l eng 例:

tesseract num1.jpg num1.net

  • 這裏 -l eng 是設置語言,不寫的話,默認是 eng 也就是英語 這裏寫圖片描述
  • 結果: 這裏寫圖片描述
  • 注意:

識別手寫英文

  • 識別圖片 eng2.jpg 這裏寫圖片描述
  • 輸入命令:保存爲 eng2.txt 這裏寫圖片描述
  • 咱們對比一下結果: 這裏寫圖片描述
  • 這裏是識別錯了一個字母,把 ig 錯誤的識別成 S,包括上面那張 數字也是錯了一個
  • 那也就是咱們要努力的方向了

識別中文

  • 這裏識別中文只須要將 -l 參數改爲 chi_sim 例如:
  • 對 有中文文字的圖片 chi1.jpg ,進入圖片路徑,使用一下命令:

**tesseract chi1.jpg chi1 -l chi_sim **3d

  • 圖片樣式: 這裏寫圖片描述
  • 執行命令: 這裏寫圖片描述
  • 運行結果: 這裏寫圖片描述

識別英文和數字夾雜驗證碼

  • 例如:
  • 對 圖片 timg.jpg ,進入圖片路徑,使用一下命令:

tesseract timg.jpg timgblog

  • 圖片樣式: 這裏寫圖片描述
  • 執行命令: 這裏寫圖片描述
  • 運行結果: 這裏寫圖片描述

Tesseract 訓練:

  • 咱們能夠經過重複的訓練,用更多的數據去訓練,就能夠達到更多高的識別正確率
  • 咱們使用 jTessBoxEditor 訓練
  • 因爲 jTessBoxEditor 的安裝和訓練,內容比較多,我再整理一篇

更多文章連接:Tesseract 隨筆

<hr>- 本筆記不容許任何我的和組織轉載圖片

相關文章
相關標籤/搜索