文字識別引擎試用:tesseract-ocr

        tesseract-ocr是一 個OCR引擎,在1985年到1995年由HP實驗室開發,後來由google開發而且開源,支持多平臺,支持多達40種語言,其中包括中文,支持訓練,tesseract-ocr是一個命令行程序,可是也提供多種語言的包裝器,如.Net 、Python、Ruby、C、Java,方便集成到程序中使用。測試

命令行調用很簡單:字體

tesseract.exe <image> <outputName> [-l lang] [configs]google

<image>:要識別的圖片路徑spa

<outputName>:命令行模式下,tesseract會把識別出來的文字結果保存在一個文本文件中,outputName是該文件的名字,若是值爲「lixin」,那麼結果會保存在程序根目錄下的lixin.txt文件中。命令行

[-l lang]:默認狀況下自帶了英文的字典,若是想識別中文或者其餘語言,須要在下載相應的語言包,並存放在程序「/tessdata」目錄下,例如我下載了一個簡體中文包,文件名爲「chi_sim.traineddata」,解壓到「tessdata」目錄下,而後該值爲:「-l chi_sim」。code

[configs]:配置項。圖片

調用的例子: tesseract.exe d:\test.jpg resultFile –l chi_sim開發

        通過測試,英文的識別率仍是比較高的,但在字體比較小的狀況下,識別率不好,我在記事本上輸入本身的手機號碼,10px字體,而後截圖測試,發現識別錯誤,接着我把原圖進行放大到200%,再進行測試,則識別正確;測試中文時,識別率沒有英文高,並且一樣存在字體不夠大時識別錯誤率高,經過放大圖片或者字體均能提升識別率,常規的驗證碼識別沒問題,可是連體字符則沒法識別。get

相關文章
相關標籤/搜索