[轉]OCR----你不得不知的Tesseract六大重要核心

轉載地址:http://blog.csdn.net/guzhenping/article/details/51035077

Abstract


整理了不少OCR的資料,這篇主要是對Tesseract重要的知識進行總結羅列。本次總結,基於2007年Smith所寫的Paper—-《An Overview of the Tesseract OCR Engine》,因此算是論文導讀吧。PS:Smith是一個專一OCR領域30年的男人~~太可怕了!算法

這篇文章的重點是在文本行的查找,特徵/分類的方法,以及自適應分類器。此外,文章中介紹了Tesseract發展歷史,我就略過了,只談技術相關。微信

 

1. Architecture


先談Page Layout Analysis技術,它在OCR領域是個很重要的部分,由於算是文字識別的準備工做。可是,早期的Tesseract沒有這項技術,由於HP實驗室開發了獨立的Page Layout Analysis technology。因此在後期的Tesseract就加入了這項技術。markdown

沒記錯,就是Tesseract 3.x系列,可是工做沒有完成。Smith是基於製表位探測技術作的頁面分析。據Smith說下面在作頁面中table的檢測,我猜快作完了吧….ide

這篇論文裏的(舊)Tesseract假設:其數據源是已定義的可選多邊形文本域的二進制圖片。ui

Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined..net

再談處理過程。分兩步: (1)connected component analysis,而後獲得Blobs. (2)從Blobs中獲得文本行,而後獲得固定比例的(fixed pitch)或者成比例的(proportional)文本。翻譯

最後談識別過程。分兩步: (1)經過一個一個地識別單詞訓練自適應分類器(adaptive classifier),classifer將獲得更高的概率能正確識別單詞。 (2)識別整個頁面。component

 

2. Line and Word Finding


歸納來講,先找文本行(lines),再找基線(baseline),而後將單詞(word)切割成字符(character)。blog

細細來說三點:圖片

  • 找文本行所用的算法參見:《A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation》,written by Ray Smith。
  • baseline使用的二次樣條曲線(quadratic spline),參考資料:《Optical Character Recognition: An Illustrated Guide to the Frontier》,written by S.V. Rice。
  • 經過固定間距檢測(fixed pitch detection),把單詞切成字符。對於沒有固定間隔的文本,即成比例單詞(proportional word),採用計算baseline和mean line之間的空隙垂直範圍。

 

致歉


這篇博文在個人草稿箱放了過久,不公佈出來就是浪費。可是,目前的內容很是對不起文章標題。按照題目,我還會寫:

  • 3 Word Recognition
  • 4 Static Character Classifier
  • 5 Linguistic Analysis
  • 6 Adaptive Classifier

若是這篇博文反響還不錯,我將繼續下去。Sorry~Everyone~

 

結語


我還健康的活着,有問題歡迎交流!這裏在大牛面前,班門弄斧,實在很差意思哈~歡迎指正!

有問題能夠在個人微信公衆號「谷震平的專欄」提出,當天答覆。歡迎,掃描下方二維碼,回覆「Tesseract」,便可獲得《An Overview of the Tesseract OCR Engine》(我我的進行了註釋、翻譯)的閱讀連接。

谷震平的專欄

                      

                     
相關文章
相關標籤/搜索