文字識別引擎試用：tesseract-ocr

時間 2019-11-17

標籤文字識別引擎試用 tesseract ocr 简体版

原文原文鏈接

tesseract-ocr是一個OCR引擎，在1985年到1995年由HP實驗室開發，後來由google開發而且開源，支持多平臺，支持多達40種語言，其中包括中文，支持訓練，tesseract-ocr是一個命令行程序，可是也提供多種語言的包裝器，如.Net 、Python、Ruby、C、Java，方便集成到程序中使用。測試

命令行調用很簡單：字體

tesseract.exe <image> <outputName> [-l lang] [configs]google

<image>：要識別的圖片路徑spa

<outputName>：命令行模式下，tesseract會把識別出來的文字結果保存在一個文本文件中，outputName是該文件的名字，若是值爲「lixin」，那麼結果會保存在程序根目錄下的lixin.txt文件中。命令行

[-l lang]：默認狀況下自帶了英文的字典，若是想識別中文或者其餘語言，須要在下載相應的語言包，並存放在程序「/tessdata」目錄下，例如我下載了一個簡體中文包，文件名爲「chi_sim.traineddata」，解壓到「tessdata」目錄下，而後該值爲：「-l chi_sim」。code

[configs]：配置項。圖片

調用的例子： tesseract.exe d:\test.jpg resultFile –l chi_sim開發

通過測試，英文的識別率仍是比較高的，但在字體比較小的狀況下，識別率不好，我在記事本上輸入本身的手機號碼，10px字體，而後截圖測試，發現識別錯誤，接着我把原圖進行放大到200%，再進行測試，則識別正確；測試中文時，識別率沒有英文高，並且一樣存在字體不夠大時識別錯誤率高，經過放大圖片或者字體均能提升識別率，常規的驗證碼識別沒問題，可是連體字符則沒法識別。get

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。