Tesseract——OCR圖像識別入門篇

時間 2019-11-20

標籤 tesseract ocr 圖像識別入門简体版

原文原文鏈接

Tesseract——OCR圖像識別入門篇
小程序

最近給了我一個任務，讓我研究圖像識別，從咱們項目的screenshot中識別文字信息，so我開始了學習，與你們分享下。學習

我看到目前OCR技術有不少，最主要的是Asprise OCR，Tesseract OCR和Java OCR。測試

Asprise OCR速度很快，Java實現很簡單，可是它是商業的，要收費的，免費版每次都要彈出對話框，是個很麻煩的事情。ui

Tesseract OCR是C++的，要使用cmd命令的，速度也很快，質量也很好。固然Java也是可使用的。google

Java OCR是純Java的，效率也不錯。.net

今天先記錄下Tesseract吧，後續再補充code

1. 首先從官網上下載壓縮包，最新版本是Tesseract 3.03，以前的版本能夠從這裏下載.blog

2. 解壓下載好的壓縮包到本地目錄。圖片

3. 打開cmd窗口，進入到tesseract目錄下，而後就能夠開始咱們的測試之旅啦get

1）選擇好你所要識別的圖片，並肯定你所要輸出的文件，而後輸入下列命令:

tesseract letter.png 1

"letter.png": 須要識別的圖片

"1": 輸出的文件 1.txt

2) 咱們已經把圖片中的信息解析出來啦。

來自: http://blog.csdn.net/PanRuiFang/article/details/27191739

上面說道tesseract 是支持中文的，因此麼，接下來看看如何使用tesseract 實現咱們中文的識別，下面繼續介紹其餘參數

參數3：-l

參數4：使用的語言庫

參數3 -l應該是知道參數4所使用的語言庫，默認英文，也就是爲何上面識別英文的例子，並無輸入參數3和參數4，也實現了識別。

下面繼續咱們的實驗：

咱們準備了一張圖片，而後使用tesseract zhongwen.jpg 7 -l chi_sim 指明瞭中文語言，而後效果圖上，仍是很不錯的，畢竟咱們的中文是如此的博大精深，而且tesseract能夠通過訓練，而後識字的能力就會大幅度提高。

好了，因爲一行代碼沒寫，就不上傳代碼了，你們本身去官網下載。接下來我會使用Java帶你們實現這樣的小程序。

來自: http://blog.csdn.net/lmj623565791/article/details/23955883

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

Tesseract——OCR圖像識別 入門篇