一.OCR簡介 參見http://baike.baidu.com/view/17761.htm?fr=ala0_1 你們參照,我第一次也是這麼瞭解的,呵呵。高手見笑ide
如今市面上好多OCR 引擎,不過大可能是收費的,價格不菲呀。。不適合咱們學習研究。學習
而今天咱們談到的Tesseract 是開源的產品,比較適合你們的口味吧。而且Tesseract 也是目前識別率較高的OCR,並不比其餘引擎測試
差勁。網上介紹Tessnet2也是當時時間排名第三的識別引擎,只是後來慢慢不維護了,目前是Google在維護,你們都知道Googlegoogle
在搞電子圖書館,天天都有不一樣類目的書被掃描成電子版,而下一步工做是什麼。。。你們能夠聯想。.net
Tessnet2 是用vc ++ 開發的,最中是生成Tessnet2.dll ,咱們能夠經過.net 來調用內部具體類庫實現識別。code
Tessnet2的使用:htm
1.將Tessnet2.dll 添加到vs bin目錄,和添加.net程序集同樣。http://files.cnblogs.com/zhuxiangyu/tessnet2_32.rar 點擊連接下載Tessnet2.dllblog
2.用Tessnet2進行識別開發
Bitmap image = newBitmap("eurotext.tif");//識別圖像
tessnet2.Tesseractocr = new tessnet2.Tesseract();//聲明一個OCR類
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); //設置識別變量,當前只能識別數字。
ocr.Init(@"c:\temp", "fra", false); //應用當前語言包。注,Tessnet2是支持多國語的。語言包下載連接:http://code.google.com/p/tesseract-ocr/downloads/list
List<tessnet2.Word> result = ocr.DoOCR(image, Rectangle.Empty);//執行識別操做
foreach (tessnet2.Word word in result) //遍歷識別結果。
Console.WriteLine("{0} : {1}", word.Confidence, word.Text);get
看看 使用很簡單吧。給你們個實例http://files.cnblogs.com/zhuxiangyu/Tessnet2example.rar用來測試。