NET 2.0 OCR文字識別技術(Tesseract 引擎)[轉]

一.OCR簡介  參見http://baike.baidu.com/view/17761.htm?fr=ala0_1  你們參照,我第一次也是這麼瞭解的,呵呵。高手見笑ide

   如今市面上好多OCR 引擎,不過大可能是收費的,價格不菲呀。。不適合咱們學習研究。學習

 而今天咱們談到的Tesseract 是開源的產品,比較適合你們的口味吧。而且Tesseract 也是目前識別率較高的OCR,並不比其餘引擎測試

 差勁。網上介紹Tessnet2也是當時時間排名第三的識別引擎,只是後來慢慢不維護了,目前是Google在維護,你們都知道Googlegoogle

   在搞電子圖書館,天天都有不一樣類目的書被掃描成電子版,而下一步工做是什麼。。。你們能夠聯想。.net

 

 

Tessnet2 是用vc ++ 開發的,最中是生成Tessnet2.dll ,咱們能夠經過.net 來調用內部具體類庫實現識別。code

Tessnet2的使用:htm

1.將Tessnet2.dll 添加到vs bin目錄,和添加.net程序集同樣。http://files.cnblogs.com/zhuxiangyu/tessnet2_32.rar 點擊連接下載Tessnet2.dllblog

2.用Tessnet2進行識別開發

 

Bitmap image = newBitmap("eurotext.tif");//識別圖像
tessnet2.Tesseractocr = new tessnet2.Tesseract();//聲明一個OCR類
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); //設置識別變量,當前只能識別數字。
ocr.Init(@"c:\temp", "fra", false); //應用當前語言包。注,Tessnet2是支持多國語的。語言包下載連接:http://code.google.com/p/tesseract-ocr/downloads/list
List<tessnet2.Word> result = ocr.DoOCR(image, Rectangle.Empty);//執行識別操做
foreach (tessnet2.Word word in result) //遍歷識別結果。
 Console.WriteLine("{0} : {1}", word.Confidence, word.Text);get

 看看 使用很簡單吧。給你們個實例http://files.cnblogs.com/zhuxiangyu/Tessnet2example.rar用來測試。

相關文章
相關標籤/搜索