爬蟲遇到了驗證碼沒法識別?python
PDF 裏的掃描文檔讓你無從下手?git
公司的有 OCR 需求但又不想花錢?github
寫論文就想 抄參考 一段,但文庫下載都要收費?web
不用擔憂這些了!docker
來吧朋友,這款適合人類食用的離線中文 OCR 項目解決你全部的煩惱!shell
今天的主角就是這款在 github 上開源的項目:TrWebOCRbash
項目是基於開源離線 OCR 項目 Tr構建的,服務器
解決了 Tr 不支持併發的問題,併發
而且提供了 web 頁面和 web 接口可以使用,ui
所以不管是平常的使用仍是其餘項目調用也都十分的方便。
明人不說暗話,是騾子是馬拉出來遛遛就知道了!
下面是可能比較經常使用的兩個場景:文檔和驗證碼的識別。
文檔識別的置信度基本在 99%,驗證碼識別出的置信度也在 72%以上。
這極簡的界面,
超高的識別率,
強大的功能,
你心動了嗎?
再優秀的東西,
若是安裝就得花上半天,
那也足以勸退不少人,
所以,
它的部署起來是極其容易的。
即便你想在本身的 Windows 或 MacOS 上部署也沒有問題,
經過 Docker 就能夠完美解決~
在服務器上部署只須要 3 步:
推薦使用 miniconda )
python install.py
pip install -r requirements.txt
搞定!
運行 main.py後,
web 服務默認運行在 8089 端口,
看到如下輸出就表明運行成功了:
$ python backend/main.py > tr 1.5.0 https://github.com/myhub/tr > server is running: 0.0.0.0:8089
若是有報錯,能夠參考項目的 wiki 來解決
在 Docker 上部署就更加簡單了,
該方法適合非 Linux 的用戶,
或者對環境有潔癖的用戶。
項目提供了 Dockerfile
,
只須要簡單的 build
, run
就能夠運行了!
$ docker build -t TrWebOCR:latest .
$ docker run -itd -p 8089:8089 --name trweb trweb-ocr:latest /bin/bash
這裏把容器的 8089 端口映射到了物理機的 8089 上,
但若是你不喜歡映射,
去掉 run 後面的 -p 8089:8089
,
就能夠經過 Docker 容器的 ip 來訪問了。
最後一點,也是最重要的一點。
該項目不須要過高的配置!!!
一個 1 核 2G的機器就可以跑得起來了!
但若是你的項目對併發的要求比較高的話,
仍是得上高配置一點的機器~