經常使用的幾種OCR方法/組件小結(C#)

數字、英文識別比較容易。中文識別主要存在兩個問題:其一,有可能誤識別。其2、須要隨帶幾十兆的識別庫(甚至更大)。
 
適合C#編程引用的中文ocr技術,查到如下兩種:
 
1.使用開源的Tesseract作識別,中文識別率不過高,但能夠本身訓練識別器,須要隨帶30M左右的中文識別庫。支持.net。
 
2.使用破解版的Asprise,但注意它不支持中文識別。
 
3.使用微軟office帶的modi組件,須要客戶端安裝這個組件,不太適合在客戶端軟件上使用,沒有繼續試下去。modi的識別率較高。支持.net。
 
4.使用OneNote的圖片轉文字(光學識別字符)。
 
 
參考資料:
http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html
http://www.cnblogs.com/stone_w/archive/2011/10/08/2202397.html
http://www.cnblogs.com/baiboy/p/wpf1.html
相關文章
相關標籤/搜索