最近在看文字識別的實例,也查詢不少文章,最後仍是選定開源的引擎(tesseract3.0.1)html
最開始找到的是用微軟Office的一個組件實現的,我的感受不是我想要的(要開源啊纔是王道)git
http://www.cnblogs.com/vipstone/archive/2011/10/08/2202397.htmlgithub
後面在開源中圖看到了開源項目:app
http://www.oschina.net/news/40027/6-opensource-ocr-tools測試
找到了(tesseract )看到學是google開源的還排到第一個因而就找Demothis
是有找到而但老是出了些問題,還加上本身有點暈控制檯,就沒有太在乎所出的是什麼錯,再者就是本身暫時不須要因而就放下了google
今天有空就再來拾起看看!spa
第一步:在stackoverflow 上找到了.net
http://stackoverflow.com/questions/15659278/tesseract-3-0-ocr-net-4-0-wrapperdebug
有用的內容以下:
There is now a NuGet Package for the .NET wrapper of charlesw with precompiled versions for all runtimes
http://www.nuget.org/packages/Tesseract/
The project is on:
https://github.com/charlesw/tesseract
Is very important to install Visual Studio 2012 Runtimes on the client machines
http://www.microsoft.com/en-us/download/details.aspx?id=30679
因而我就去在github上下載下來,發現之前也下過,不要緊再下一次就能夠了
下載下來打整了幾下,我機子報打不到這兩個dll(msvcr120.dll,msvcp120.dll),不要緊其餘機子上都拷到system32 下就行了!
讀取英文沒有問題,那咱們來讀中方吧,
仍是在stackoverflow下來找到
http://stackoverflow.com/questions/16581626/chinese-character-recognition-using-tesseract-ocr/16582777#16582777
You need to download chinese trained data (it will be a file like chi_sim.traineddata) and add it to your tessdata folder.
To download the file https://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz
and use like this
Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];
if you have any problem you can download my experiment with tessaract (with chinese language support) from https://github.com/aryansbtloe/ExperimentWithTesseract.git
I have tested this one...Hope you will find this useful.
雖而後他說的是C++中,但語言包應該是同樣的,並且之前我也FQ下過簡體中文的,也也能夠下他提供的github下去下。
各位我用的是Tesseract.ConsoleDemo這個項目來作測試,因而把chi_sim.traineddata文件拷到tessdata這個下面,
Program.cs中將
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
改成:
using (var engine = new TesseractEngine(@"./tessdata", "chi_sim", EngineMode.Default))
運行報錯了。上次實際都作到這一步了,就是捨不得多走一步,看到一個什麼意思,
http://blog.csdn.net/dragoo1/article/details/7961669
簡單就是說把tessdata拷貝到exe的所在目錄,或者設置TESSDATA_PREFIX環境變量
在bin/debug/tessdata/看了一下,果真後沒有chi_sim.traineddata
於把在vs中把這個文件改爲始終複製,生成再測試,能夠了!