Tesseract-OCR的簡單使用與訓練

Tesseract-OCR的簡單使用與訓練

 

Tesseract,一款由HP實驗室開發由Google維護的開源OCR(Optical Character Recognition , 光學字符識別)引擎,與Microsoft Office Document Imaging(MODI)相比,咱們能夠不斷的訓練的庫,使圖像轉換文本的能力不斷加強;若是團隊深度須要,還能夠以它爲模板,開發出符合自身需求的OCR引擎。html

源碼地址爲:https://github.com/tesseract-ocr/tesseractgit

EXE可執行文件地址:http://download.csdn.net/download/whatday/7740469github

接下來,咱們將在Windows環境下安裝Tesseract並實現簡單的轉換和訓練:工具

一、Tesseract實現

大致流程:Tesseract安裝 -> 打開命令行 -> 生成目標文件post

Tesseract安裝

下載tesseract-ocr-setup-3.02.02.exe安裝包,安裝成功後會在相應磁盤下有Tesseract-OCR文件夾,如圖學習

 

打開命令行

打開命令行,輸入tesseract,回車;如下即是tesseract的大致面貌:測試

 

生成目標文件

先準備一張圖片文件,如test.png字體

 

將命令行切換至目標圖像文件目錄,好比咱們轉換文件爲test.png(圖片文件容許多種格式),位於C:\Users\Lian\Desktop\test;而後在命令行中輸入url

tesseract test.png output_1 –l eng

【語法】:  tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]spa

imagename爲目標圖片文件名,需加格式後綴;outputbase是轉換結果文件名;lang是語言名稱(在Tesseract-OCR中tessdata文件夾可看到以eng開頭的語言文件eng.traineddata),如不標-l eng則默認爲eng。

 

打開文件output_1.txt,發現tesseract成功的將圖像轉換成152408

 

可喜可賀,說明老牌名將tesseract仍是很強的!可是仍是有點不夠準確,那麼咱們有沒有什麼辦法能提升tesseract識別字符準確率呢?接下來,咱們將使用配套訓練工具jTessBoxEditor來訓練樣本,來提升咱們的準確率!

 

二、Tesseract訓練:

大致流程爲:安裝jTessBoxEditor -> 獲取樣本文件 -> Merge樣本文件 –> 生成BOX文件 -> 定義字符配置文件 -> 字符矯正 -> 執行批處理文件 -> 將生成的traineddata放入tessdata中

安裝jTessBoxEditor

下載jTessBoxEditor,地址https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/;解壓後獲得jTessBoxEditor,因爲這是由Java開發的,因此咱們應該確保在運行jTessBoxEditor前先安裝JRE(Java Runtime Environment,Java運行環境)。

獲取樣本文件

咱們能夠用畫圖工具繪製樣本文件,數量越多越好,我本身畫了5張圖,如圖:

【注意】:樣本圖像文件格式必須爲tif\tiff格式,不然在Merge樣本文件的過程當中會出現 Couldn’t Seek 的錯誤。

 

 

 

Merge樣本文件

打開jTessBoxEditor,Tools->Merge TIFF,將樣本文件所有選上,並將合併文件保存爲num.font.exp0.tif

生成BOX文件

打開命令行並切換至num.font.exp0.tif所在目錄,輸入,生成文件名爲num.font.exp0.box

tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox

【語法】:tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox  

lang爲語言名稱,fontname爲字體名稱,num爲序號;在tesseract中,必定要注意格式。

定義字符配置文件

在目標文件夾內生成一個名爲font_properties的文本文件,內容爲

font 0 0 0 0 0  

【語法】:<fontname> <italic> <bold> <fixed> <serif> <fraktur>  

fontname爲字體名稱,italic爲斜體,bold爲黑體字,fixed爲默認字體,serif爲襯線字體,fraktur德文黑字體,1和0表明有和無,精細區分時可以使用。

字符矯正

打開jTessBoxEditor,BOX Editor -> Open,打開num.font.exp0.tif;矯正<Char>上的字符,記得<Page>有好多頁噢!

 

修改後記得保存。

執行批處理文件

在目標目錄下生成一個批處理文件

複製代碼
rem 執行改批處理前先要目錄下建立font_properties文件 
echo Run Tesseract for Training.. tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train echo Compute the Character Set.. unicharset_extractor.exe num.font.exp0.box mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr echo Clustering.. cntraining.exe num.font.exp0.tr echo Rename Files.. rename normproto num.normproto rename inttemp num.inttemp rename pffmtable num.pffmtable rename shapetable num.shapetable echo Create Tessdata.. combine_tessdata.exe num.
echo. & pause
複製代碼

保存後執行便可,執行結果如圖:

最終文件夾內會有如下文件,如圖:

 

將生成的traineddata放入tessdata中

最後將num.trainddata複製到Tesseract-OCR中tessdata文件夾便可。

 

三、最後的測試

按照以前步驟,使用命令行輸入

tesseract test.png output_2 -l num

咱們能夠看到新生成的文件output_2的內容爲762408,內容徹底正確。細心的人會發現,最後一句指令,咱們使用了指令[-l num]而不是[-l eng]。這說明,最後一次轉換咱們使用的是新生成的num語言的匹配庫而不是默認的eng語言匹配庫。

 

 

咱們能夠看到,通過簡單的訓練,咱們對於數字數據的轉換準確率提升了不少。Tesseract的優勢除了能夠不斷學習之外,還由於是使用C++寫的開源程序,可使用C#或者C++調用以及修改,很關鍵!

關於Tesseract,關於OCR,關於計算機,還有太多值得本身去學習,但願之後能夠在這裏記錄下來。

若有錯誤或者建議,請盡情指教!

相關文章
相關標籤/搜索