這麼好用的離線OCR項目,我要摁頭安利給你!

爬蟲遇到了驗證碼沒法識別?python

PDF 裏的掃描文檔讓你無從下手?git

公司的有 OCR 需求但又不想花錢?github

寫論文就想 參考 一段,但文庫下載都要收費?web

不用擔憂這些了!docker

來吧朋友,這款適合人類食用的離線中文 OCR 項目解決你全部的煩惱!shell

今天的主角就是這款在 github 上開源的項目:TrWebOCRbash

介紹

項目是基於開源離線 OCR 項目 Tr構建的,服務器

解決了 Tr 不支持併發的問題,併發

而且提供了 web 頁面和 web 接口可以使用,ui

所以不管是平常的使用仍是其餘項目調用也都十分的方便。

效果

明人不說暗話,是騾子是馬拉出來遛遛就知道了!

下面是可能比較經常使用的兩個場景:文檔驗證碼的識別。

文檔識別的置信度基本在 99%,驗證碼識別出的置信度也在 72%以上。

文檔識別
驗證碼識別

這極簡的界面,

超高的識別率,

強大的功能,

你心動了嗎?

如何安裝

再優秀的東西,

若是安裝就得花上半天,

那也足以勸退不少人,

所以,

它的部署起來是極其容易的。

即便你想在本身的 Windows 或 MacOS 上部署也沒有問題,

經過 Docker 就能夠完美解決~

在 Linux 服務器部署

在服務器上部署只須要 3 步:

  1. 安裝 python3.7

推薦使用 miniconda )

  1. 執行 install.py
python install.py
  1. 安裝依賴包
pip install -r requirements.txt

搞定!

運行 main.py後,

web 服務默認運行在 8089 端口,

看到如下輸出就表明運行成功了:

$ python backend/main.py
> tr 1.5.0 https://github.com/myhub/tr
> server is running: 0.0.0.0:8089

若是有報錯,能夠參考項目的 wiki 來解決

在 Docker 部署

在 Docker 上部署就更加簡單了,

該方法適合非 Linux 的用戶,

或者對環境有潔癖的用戶。

項目提供了 Dockerfile

只須要簡單的 build, run 就能夠運行了!

  1. 編譯 Dockerfile
$ docker build -t TrWebOCR:latest .
  1. 運行一個容器
$ docker run -itd -p 8089:8089 --name trweb trweb-ocr:latest /bin/bash

這裏把容器的 8089 端口映射到了物理機的 8089 上,

但若是你不喜歡映射,

去掉 run 後面的 -p 8089:8089

就能夠經過 Docker 容器的 ip 來訪問了。

配置的要求

最後一點,也是最重要的一點。

該項目不須要過高的配置!!!

一個 1 核 2G的機器就可以跑得起來了!

但若是你的項目對併發的要求比較高的話,

仍是得上高配置一點的機器~

相關文章
相關標籤/搜索