Tesseract——OCR圖像識別 入門篇
小程序
最近給了我一個任務,讓我研究圖像識別,從咱們項目的screenshot中識別文字信息,so我開始了學習,與你們分享下。學習
我看到目前OCR技術有不少,最主要的是Asprise OCR,Tesseract OCR和Java OCR。測試
Asprise OCR速度很快,Java實現很簡單,可是它是商業的,要收費的,免費版每次都要彈出對話框,是個很麻煩的事情。ui
Tesseract OCR是C++的,要使用cmd命令的,速度也很快,質量也很好。固然Java也是可使用的。google
Java OCR是純Java的,效率也不錯。.net
今天先記錄下Tesseract吧,後續再補充code
1. 首先從官網上下載壓縮包,最新版本是Tesseract 3.03,以前的版本能夠從這裏下載.blog
2. 解壓下載好的壓縮包到本地目錄。圖片
3. 打開cmd窗口,進入到tesseract目錄下,而後就能夠開始咱們的測試之旅啦get
1)選擇好你所要識別的圖片,並肯定你所要輸出的文件,而後輸入下列命令:
tesseract letter.png 1
"letter.png": 須要識別的圖片
"1": 輸出的文件 1.txt
2) 咱們已經把圖片中的信息解析出來啦。
來自: http://blog.csdn.net/PanRuiFang/article/details/27191739
上面說道tesseract 是支持中文的,因此麼,接下來看看如何使用tesseract 實現咱們中文的識別,下面繼續介紹其餘參數
參數3:-l
參數4: 使用的語言庫
參數3 -l應該是知道參數4所使用的語言庫,默認英文,也就是爲何上面識別英文的例子,並無輸入參數3和參數4,也實現了識別。
下面繼續咱們的實驗:
咱們準備了一張圖片,而後使用tesseract zhongwen.jpg 7 -l chi_sim 指明瞭中文語言,而後效果圖上,仍是很不錯的,畢竟咱們的中文是如此的博大精深,而且tesseract能夠通過訓練,而後識字的能力就會大幅度提高。
好了,因爲一行代碼沒寫,就不上傳代碼了,你們本身去官網下載。接下來我會使用Java帶你們實現這樣的小程序。
來自: http://blog.csdn.net/lmj623565791/article/details/23955883