整理了不少OCR的資料,這篇主要是對Tesseract重要的知識進行總結羅列。本次總結,基於2007年Smith所寫的Paper—-《An Overview of the Tesseract OCR Engine》,因此算是論文導讀吧。PS:Smith是一個專一OCR領域30年的男人~~太可怕了!算法
這篇文章的重點是在文本行的查找,特徵/分類的方法,以及自適應分類器。此外,文章中介紹了Tesseract發展歷史,我就略過了,只談技術相關。微信
先談Page Layout Analysis技術,它在OCR領域是個很重要的部分,由於算是文字識別的準備工做。可是,早期的Tesseract沒有這項技術,由於HP實驗室開發了獨立的Page Layout Analysis technology。因此在後期的Tesseract就加入了這項技術。markdown
沒記錯,就是Tesseract 3.x系列,可是工做沒有完成。Smith是基於製表位探測技術作的頁面分析。據Smith說下面在作頁面中table的檢測,我猜快作完了吧….ide
這篇論文裏的(舊)Tesseract假設:其數據源是已定義的可選多邊形文本域的二進制圖片。ui
Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined..net
再談處理過程。分兩步: (1)connected component analysis,而後獲得Blobs. (2)從Blobs中獲得文本行,而後獲得固定比例的(fixed pitch)或者成比例的(proportional)文本。翻譯
最後談識別過程。分兩步: (1)經過一個一個地識別單詞訓練自適應分類器(adaptive classifier),classifer將獲得更高的概率能正確識別單詞。 (2)識別整個頁面。component
歸納來講,先找文本行(lines),再找基線(baseline),而後將單詞(word)切割成字符(character)。blog
細細來說三點:圖片
這篇博文在個人草稿箱放了過久,不公佈出來就是浪費。可是,目前的內容很是對不起文章標題。按照題目,我還會寫:
若是這篇博文反響還不錯,我將繼續下去。Sorry~Everyone~
我還健康的活着,有問題歡迎交流!這裏在大牛面前,班門弄斧,實在很差意思哈~歡迎指正!
有問題能夠在個人微信公衆號「谷震平的專欄」提出,當天答覆。歡迎,掃描下方二維碼,回覆「Tesseract」,便可獲得《An Overview of the Tesseract OCR Engine》(我我的進行了註釋、翻譯)的閱讀連接。