基於百度雲的OCR識別(Python)

2019年7月3日早上,在百度AI開發者大會上,一個來自山西的青年,將一瓶礦泉水澆在了一樣來自山西的李彥宏身上。python

能夠回顧一下 https://b23.tv/av57665929/p1 ,着實讓人一驚,這麼大的會議上既然讓人這麼容易接近大佬。web

(圖片來源網絡)編程

OCR識別準備工做

百度雲真的是測試接口的天堂,免費接口不少,固然有量的限制,但我的使用是徹底夠用的,什麼人臉識別、MQTT服務器、語音識別等等,應有盡有吧服務器

看看OCR識別免費的量網絡

第一步:編程語言

建立一個文字識別的應用,也就是向百度雲申請一個文字識別的用戶接口測試

 

第二步:編碼

打開技術文檔,基本涵蓋了當今流行的編程語言url

https://cloud.baidu.com/doc/OCR/s/ejwvxzls6/spa

第三步:

安裝OCR Python SDK,OCR Python SDK目錄結構

├── README.md
├── aip                   //SDK目錄
│   ├── __init__.py       //導出類
│   ├── base.py           //aip基類
│   ├── http.py           //http請求
│   └── ocr.py //OCR
└── setup.py              //setuptools安裝

支持Python版本:2.7.+ ,3.+

安裝命令:

在win10環境下經過cmd安裝後須要關掉當前cmd窗口,從新打開cmd窗口進行命令執行python程序方可正確實現

pip install baidu-aip

測試代碼

通用文字識別

from aip import AipOcr

#更換爲本身的註冊信息
APP_ID = '---'
API_KEY = '---'
SECRET_KEY = '---'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)#建立鏈接
fp=open("tu2.png","rb").read()#打開並讀取文件內容
res=client.basicGeneral(fp)#普通
#print(res)

#將全部的文字都合併到一塊兒
strx=""
for tex in res["words_result"]:#遍歷結果
    strx+=tex["words"]#每一行
print(strx)#輸出內容

通用文字識別(高精度版)

from aip import AipOcr

#更換爲本身的註冊信息
APP_ID = '---'
API_KEY = '---'
SECRET_KEY = '---'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)#建立鏈接
fp=open("tu2.png","rb").read()#打開並讀取文件內容
#res=client.basicGeneral(fp)#普通
res=client.basicAccurate(fp)#高精度
#print(res)

#將全部的文字都合併到一塊兒
strx=""
for tex in res["words_result"]:#遍歷結果
    strx+=tex["words"]#每一行
print(strx)#輸出內容

 URL圖片地址方式

from aip import AipOcr

#更換爲本身的註冊信息
APP_ID = '----'
API_KEY = '----'
SECRET_KEY = '-----'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)#建立鏈接
url = "https://img2018.cnblogs.com/blog/1485202/201907/1485202-20190705210445649-2093672772.png"
res=client.basicGeneralUrl(url)#普通
#print(res)

#將全部的文字都合併到一塊兒
strx=""
for tex in res["words_result"]:#遍歷結果
    strx+=tex["words"]
print(strx)#輸出內容

注意

圖片格式(image):

圖像數據,base64編碼,要求base64編碼後大小不超過4M,最短邊至少15px,最長邊最大4096px,支持jpg/png/bmp格式

URL格式(url):

圖片完整URL,URL長度不超過1024字節,URL對應的圖片base64編碼後大小不超過4M,最短邊至少15px,最長邊最大4096px,支持jpg/png/bmp格式,當image字段存在時url字段失效

語言設置(language_type)

識別語言類型,默認爲CHN_ENG

可設置:- CHN_ENG:中英文混合;- ENG:英文;- POR:葡萄牙語;- FRE:法語;- GER:德語;- ITA:意大利語;- SPA:西班牙語;- RUS:俄語;- JAP:日語;- KOR:韓語;

圖像倒置設置(detect_direction)

是否檢測圖像朝向,默認不檢測,即:false。朝向是指輸入圖像是正常方向、逆時針旋轉90/180/270度。可選值包括:- true:檢測朝向;- false:不檢測朝向

是否檢測語言(detect_language)

是否檢測語言,默認不檢測。當前支持(中文、英語、日語、韓語),值爲flase或者true

是否返回識別結果中每一行的置信度(probability)

值爲flase或者true

參數添加舉例

""" 若是有可選參數 """
options = {}
options["detect_direction"] = "true"
options["detect_language"] = "true"

""" 帶參數調用網絡圖片文字識別, 圖片參數爲遠程url圖片 """
client.webImageUrl(url, options)

 更多參考:

https://cloud.baidu.com/doc/OCR/s/Rjwvxzm3n

相關文章
相關標籤/搜索