Tesseract-OCR-03-圖片文字識別

時間 2020-06-14

標籤 tesseract ocr 圖片文字識別简体版

原文原文鏈接

Tesseract-OCR-03-圖片文字識別

本篇介紹使用 Tesseract-OCR 作圖片文字識別，識別手寫文字的時候，正確率能達到 90%，當訓練後正確率是極高的。這裏介紹的圖片文字識別，能夠識別英文，數字和中文等spa

Tesseract-OCR 圖片文字識別

**Tesseract：**一款由HP實驗室開發由Google維護的開源OCR，咱們能夠不斷的訓練的庫，使圖像轉換文本的能力不斷加強；若是團隊深度須要，還能夠以它爲模板，開發出符合自身需求的OCR引擎
若是尚未安裝 Tesseract-OCR 請參考：
- Windows下 Tesseract-OCR 的安裝與環境變量配置 https://blog.csdn.net/qq_40147863/article/details/82285920
固然配置環境也都下載上面那篇文章了，一步一圖很詳細

正題圖片文字識別

我搜集了幾個素材，懶得找能夠直接下載：
https://pan.baidu.com/s/10XxYJa19KIa8-ENdQkhhHg
這裏我是將圖片放在了：D:\p
咱們須要在 cmd 進入此目錄
- 使用 cd 目錄名進入目錄
- 使用 cd.. 返回上一級目錄
使用 Tesseract 命令： tesseract 文件名保存的txt文件名 -l eng 例：

tesseract num1.jpg num1.net

這裏 -l eng 是設置語言，不寫的話，默認是 eng 也就是英語
結果：
注意：
- 1.這裏若是報錯 Tesseract 不是內部或外部命令，就是環境變量沒有配置好參照： https://blog.csdn.net/qq_40147863/article/details/82285920
- 2.若是識別的圖片文字是中文會提示，0個文字

識別手寫英文

識別圖片 eng2.jpg
輸入命令：保存爲 eng2.txt
咱們對比一下結果：
這裏是識別錯了一個字母，把 ig 錯誤的識別成 S，包括上面那張數字也是錯了一個
那也就是咱們要努力的方向了

識別中文

這裏識別中文只須要將 -l 參數改爲 chi_sim 例如：
對有中文文字的圖片 chi1.jpg ，進入圖片路徑，使用一下命令：

**tesseract chi1.jpg chi1 -l chi_sim **3d

圖片樣式：
執行命令：
運行結果：

識別英文和數字夾雜驗證碼

例如：
對圖片 timg.jpg ，進入圖片路徑，使用一下命令：

tesseract timg.jpg timgblog

圖片樣式：
執行命令：
運行結果：

Tesseract 訓練：

咱們能夠經過重複的訓練，用更多的數據去訓練，就能夠達到更多高的識別正確率
咱們使用 jTessBoxEditor 訓練
因爲 jTessBoxEditor 的安裝和訓練，內容比較多，我再整理一篇

更多文章連接：Tesseract 隨筆

<hr>- 本筆記不容許任何我的和組織轉載圖片

相關文章

相關標籤/搜索

手寫文字識別

python 百度文字識別

圖片+文字說明

python 圖像識別

Thymeleaf 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<