CNOCR:測試集準確率最高98%,自帶識別模型的中文OCR包

今天 Gitee 爲你們介紹的是一款中文 OCR 包。你們都知道,訓練模型是一件很是費時費力的事情,但今天這款項目已經自帶訓練好的識別模型,咱們只須要下載下來使用便可,能夠說是很是方便了,那麼下面咱們就去看看這個項目的詳細信息吧。git

項目名稱:cnocr網絡

項目做者:cyahua學習

開源許可協議:Apache-2.0編碼

項目地址:https://gitee.com/cyahua/cnocrcode

項目簡介

cnocr是用來作中文OCR的Python 3包。cnocr自帶了訓練好的識別模型,安裝後便可直接使用。cdn

cnocr主要針對的是排版簡單的印刷體文字圖片,如截圖圖片,掃描件等。cnocr目前內置的文字檢測和分行模塊沒法處理複雜的文字排版定位。若是要用於場景文字圖片的識別,須要結合其餘的場景文字檢測引擎使用。blog

示例

可直接使用的模型

cnocr的ocr模型能夠分爲兩階段:第一階段是得到ocr圖片的局部編碼向量,第二部分是對局部編碼向量進行序列學習,得到序列編碼向量。目前兩個階段分別包含如下的模型:接口

  1. 局部編碼模型(emb model)
    1. conv:多層的卷積網絡;
    2. conv-lite:更小的多層卷積網絡;
    3. densenet:一個小型的densenet網絡;
    4. densenet-lite:一個更小的densenet網絡。
  2. 序列編碼模型(seq model)
    1. lstm:兩層的LSTM網絡;
    2. gru:兩層的GRU網絡;
    3. fc:兩層的全鏈接網絡。

cnocr目前包含如下可直接使用的模型,訓練好的模型都放在 cnocr-models 項目中,可免費下載使用:圖片

特點

本項目的初期代碼fork自 crnn-mxnet-chinese-text-recognition,感謝做者。get

但源項目使用起來不夠方便,因此我在此基礎上作了一些封裝和重構。主要變化以下:

  • 再也不使用須要額外安裝的MXNet WarpCTC Loss,改用原生的 MXNet CTC Loss。因此安裝極簡!
  • 自帶訓練好的中文OCR識別模型。再也不須要額外訓練!
  • 增長了預測(或推斷)接口。因此使用方便!

若是你對這個項目感興趣,想要親自試一試識別的效果的話,能夠點擊後面的連接前往項目主頁看看,若是以爲不錯記得給它一個 Star 哦:gitee.com/cyahua/cnoc…

相關文章
相關標籤/搜索