Tesseract——OCR圖像識別 入門篇

Tesseract——OCR圖像識別 入門篇
小程序

 

最近給了我一個任務,讓我研究圖像識別,從咱們項目的screenshot中識別文字信息,so我開始了學習,與你們分享下。學習

我看到目前OCR技術有不少,最主要的是Asprise OCR,Tesseract OCR和Java OCR。測試

Asprise OCR速度很快,Java實現很簡單,可是它是商業的,要收費的,免費版每次都要彈出對話框,是個很麻煩的事情。ui

Tesseract OCR是C++的,要使用cmd命令的,速度也很快,質量也很好。固然Java也是可使用的。google

Java OCR是純Java的,效率也不錯。.net

今天先記錄下Tesseract吧,後續再補充code

1. 首先從官網上下載壓縮包,最新版本是Tesseract 3.03,以前的版本能夠從這裏下載.blog

2. 解壓下載好的壓縮包到本地目錄。圖片

 

3. 打開cmd窗口,進入到tesseract目錄下,而後就能夠開始咱們的測試之旅啦get

 1)選擇好你所要識別的圖片,並肯定你所要輸出的文件,而後輸入下列命令:

   tesseract letter.png 1

  "letter.png": 須要識別的圖片

   "1": 輸出的文件 1.txt

 

 2) 咱們已經把圖片中的信息解析出來啦。

 

 

來自:  http://blog.csdn.net/PanRuiFang/article/details/27191739

 

 

上面說道tesseract 是支持中文的,因此麼,接下來看看如何使用tesseract 實現咱們中文的識別,下面繼續介紹其餘參數

參數3:-l

參數4: 使用的語言庫

參數3 -l應該是知道參數4所使用的語言庫,默認英文,也就是爲何上面識別英文的例子,並無輸入參數3和參數4,也實現了識別。

下面繼續咱們的實驗:

咱們準備了一張圖片,而後使用tesseract zhongwen.jpg  7  -l chi_sim 指明瞭中文語言,而後效果圖上,仍是很不錯的,畢竟咱們的中文是如此的博大精深,而且tesseract能夠通過訓練,而後識字的能力就會大幅度提高。

好了,因爲一行代碼沒寫,就不上傳代碼了,你們本身去官網下載。接下來我會使用Java帶你們實現這樣的小程序。

 

來自:  http://blog.csdn.net/lmj623565791/article/details/23955883

相關文章
相關標籤/搜索