如何精準實現OCR文字識別？

時間 2019-11-11

標籤如何精準實現 ocr 文字識別简体版

原文原文鏈接

歡迎你們前往騰訊雲+社區，獲取更多騰訊海量技術實踐乾貨哦~算法

本文由雲計算基礎發表於雲+社區專欄小程序

前言

2018年3月27日騰訊云云+社區聯合騰訊雲智能圖像團隊共同在客戶羣舉辦了騰訊雲OCR文字識別——智能圖像分享活動，活動舉辦期間用戶耐心聽分享嘉賓的介紹，並提出了相關的問題，智能圖像團隊的科學家和工程師也耐心解答可用戶的疑問。如下就是活動分享的所有內容。api

正文

在平常生活工做中，咱們不免會遇到一些問題，好比本身辛辛苦苦寫完的資料，好不容易打印出來卻發現源文件丟了。難的收集了一些名片，卻要很麻煩的一個一個錄入信息。快遞公司的業務愈來愈好，但天天卻須要花費不少時間登記錄入運單，效率很是的低。服務器

那麼，有沒有什麼技術能幫助咱們解決這些難題呢？有的，那就是OCR文字識別技術。今天咱們請到了騰訊雲大數據AI產品中心的AI科學家冀永楠、產品經理Florali、陳英恬，高級工程師肖西華爲我們分享一下騰訊雲近年來在這一領域的探索狀況。微信

什麼是OCR？

OCR 是實時高效的定位與識別圖片中的全部文字信息，返回文字框位置與文字內容。支持多場景、任意版面下整圖文字的識別，以及中英文、字母、數字的識別。通俗的來講，就是將圖片上的文字內容，智能識別成爲可編輯的文本，例如：網絡

OCR的技術原理是什麼？

OCR本質是圖像識別。其原理也和其餘的圖像識別問題基本同樣。包含兩大關鍵技術：文本檢測和文字識別。先將圖像中的特徵的提取並檢測目標區域，以後對目標區域的的字符進行分割和分類。框架

以深度學習興起的時間爲分割點，直至近五年以前，業界最爲普遍使用的仍然是傳統的OCR識別技術框架，而隨着深度學習的崛起，基於這一技術的OCR識別框架以另一種新的思路迅速突破了原有的技術瓶頸（如文字定位、二值化和文字分割等），並已在工業界獲得普遍應用。機器學習

首先文本定位，接着進行傾斜文本矯正，以後分割出單字後，並對單字識別，最後基於統計模型（如隱馬爾科夫鏈，HMM）進行語義糾錯。學習

OCR技術的難點是什麼？

複雜背景、藝術字體、低分辨率、非均勻光照、圖像退化、字符形變、多語言混合、文本行復雜版式、檢測框字符殘缺，等等。字體

如克服這些難點的？

從幾個方面入手。一是使用場景，另外一方面是從技術上的改進騰訊優圖實驗室在文本檢測技術方進行了深度優化，提出了Compact Inception，經過設計合理的網絡結構來提高各尺度的文字檢測／提取能力。同時引入RNN多層自適應網絡和Refinement結構來提高檢測完整性和準確性。

img

騰訊雲OCR目前支持什麼功能？

基於騰訊優圖實驗室世界領先的深度學習技術，目前咱們已支持：身份證識別，銀行卡識別，名片識別，營業執照識別，行駛證駕駛證識別，車牌號識別，通用印刷體識別，手寫體識別。

你們能夠掃文章頭部的小程序二維碼體驗下咱們的小程序。

通用印刷體的技術難點，使用場景

咱們知道身份證識別可普遍應用在金融行業中，有用戶的身份認證中，能夠減小用戶的信息輸入，提高效率，提升用戶體驗，營業執照的識別徹底省去了手工錄入的繁瑣，還能夠爲企業省去大量的人力資源成本，這些場景你們都已經比較熟悉。

對於通用印刷體，騰訊優圖實驗室自主設計一整套全方位多尺度文字識別引擎，可攻破模糊，散焦，透視，文字部分遮擋的問題，識別準確率高達90%以上，處於業界領先水平。使用場景普遍，例如對任意版面上圖像的文字識別，可普遍應用在印刷文檔、廣告圖、醫療、物流等行業中的識別。

對於通用印刷體有沒有什麼好的例子？

例如這個廣告，內容多字體，中英文與數字混合，背景也比較隨意。我們的OCR經過透視矯正、去模糊等，能大幅還原圖像真實度，極大提高算法的魯棒性。

再例如識別文字密集，行間距小，透視畸變等的海報。人工識別須要不只耗費時間，肉眼也比較難識別。但騰訊雲OCR 設計了小而精的特徵提取網絡，配合先進的預處理技術，識別準確率高達93%以上。

有時候也會遇到識別率不理想的狀況，如何能夠提升識別準確率？

首先會確認下當前的場景，形成準確度不高的緣由。評估可提升的空間設計，以後作出相應的修改，列入預處理等等。

關於騰訊雲手寫體識別這塊有沒有什麼案例？

騰訊是國內首家將手寫體識別應用在複雜場景下的服務商，數字識別準確率高達90%以上，單字識別速度在15ms之內，複雜漢字準確率超過80%。

騰訊雲手寫體OCR已運用到的運單識別場景，解決了物流行業每日快遞單人工輸入工做量極大且極易出錯，很是低效等問題。

img

運單識別與傳統人工識別有什麼區別呢？

若是傳統人工識別按照3min/單，1000單須要6.25我的/天，保證運單時效則須要耗費大量人力，考慮人力成本則影響運單及時性，成本和服務難兩全。

咱們的運單識別速度能夠達到毫秒級/單，並支持24小時識別服務，業務增加時只須要投入計算用服務器資源便可，彈性較大。

與傳統識別相比，不只成本能夠下降，提升準確性，還能夠保護用戶的隱私泄露風險。

目前OCR應用現實中有很普遍的應用場景，騰訊雲OCR有什麼優點？

我們的OCR文字識別技術，目前支持中文簡繁體、英文、數字、標點共10000+標籤，覆蓋上百種字體，生僻字版本更支持2W+標籤。

那我們在行業中也有很多落地客戶了吧？

新版手Q就用到了我們的技術，在掃一掃、聊天窗口和空間圖片大圖預覽共三個入口上支持了提取圖片中文字的功能。

方便用戶閱讀、編輯、保存圖片上的文字，從而能夠對提取出的文字進行翻譯、搜索。在多種場景下能夠極大提高用戶對圖片上文字的閱讀和記錄效率。

企業微信中的名片識也用到了我們OCR技術。用戶只需拍照或選擇名片圖片，就能準確快速地識別出名片中的文字，並自動提取爲對應的字段，極大簡化了名片錄入流程，也避免了手動錄入過程可能出現的錯誤。

互動QA

通過上面的分享，用戶也提出了很多問題，咱們來看看用戶都問了什麼？

Q：您好，我想問下OCR 識別是否支持H5開發呢？

A：支持，接口是基於http協議，只要支持http協議均可以使用。

Q：通用印刷體識別剩下的10%，有提升的思路嗎？

A：總體思路仍是要回到咱們的三大引擎上。逐一進行優化。

背景識別
定位引擎
字段識別引擎

Q：目前印刷體識別上使用的思路是先分割後識別嗎？OCR支持離線識別嗎？

A：思路是先分割後識別，咱們的OCR支持離線識別的。

Q：OCR遇到沒法分割或者分割錯誤的狀況如何處理呢

A：不多有沒法分割的狀況。分割錯誤確定會對最後的結果又影響。咱們的技術，即使是再字符重疊的狀況下也能夠作出正確的分割。

Q：我想問下若是針對運單識別場景，請問是否能夠智能糾正客戶的地址呢？例如深圳，寫成了深土川。

A：咱們會結合NLP技術，結合上下文進行智能糾錯。

Q：目前市面已提供有相關服務，那麼我們在這塊有什麼不同凡響的地方或者更有優點的一面呢？

A：咱們在OCR上積累的不少的相關經驗，也是國內首家將手寫體識別應用在複雜場景下的服務商。

Q：那請問騰訊雲OCR業務支持什麼語言呀，對文字大小字體等有要求嘛？

A：中文（簡體和繁體），英文及數字。

Q：以前有提到總的分類高達2w+，這種大分類模型是怎麼訓練的。

A：分級，分批訓練。

Q：那我還想問您下車牌自動識別已應用於平常生活場景中。想了解下這個的技術難點是什麼呢？

A：相比於證照類輸入圖來講，車牌輸入圖受限於實際場景配置的攝像監控設備，及車輛位置的隨機變化，產生各類極端角度及光照案例，其質量變化範圍遠大於證照類採集圖像。

Q：您剛纔展現都是平整的圖片，對於手機拍的紙質文檔有必定弧度，好比折過的紙沒壓平，就會有必定弧度，這個能處理嗎？

A：輕微的弧度咱們能夠經過技術處理，嚴重變形的相對比較困難。

Q：除了支持標準車牌，咱們支持識別新能源車嗎？

A：支持的，咱們目前已支持藍牌、黃牌、軍牌、警牌、教練車牌、新能源車牌等，目前識別率可達到97%-98%~

Q：請問針對物流公司司機手機拍的照片，一是面單不平整，二是光線有的不理想，三是拍照角度有傾斜。針對以上狀況技術方面有沒有解決辦法？

A：拍照角度能夠經過幾何算法矯正。光線的問題也能夠經過圖像的歸一化加強。單面不平整，這個得看不平整到什麼程度了。

Q：車輛運行中，您這個80%的準確率是指車輛運動過程當中拍攝下來的圖仍是車輛中止時候拍的圖？

A：咱們是按幀處理的。

Q：是否能夠通過必定數據積累，糾錯等訓練，從而使其能識別手寫文字?

A：咱們已實現手寫體識別~

Q：OCR對運動模糊的場景識別率有多高

A：模糊的程度差別性很大。很差作標準化的統計。圖像質量不佳，最直白的處理方法是作圖像的加強。

Q：貴司技術有相關paper能夠查閱嗎？

A：

https://cloud.tencent.com/developer/article/1007166

https://cloud.tencent.com/developer/article/1008463

https://cloud.tencent.com/developer/article/1029969

能夠看看我們社區的文章哦~不少文章都是鵝廠的精華呢~

Q：圖片有點模糊，能不能說下比較好具體算法，這個太籠統了

A：有不少的濾波器均可以處理不一樣程度的模糊圖像。也有采用神經網絡的的方式處理。

咱們看到無論是複雜文字識別場景仍是小程序應用騰訊雲OCR均可以解決，對本文提問有任何疑問的同窗，你們均可以去騰訊雲問答社區（https://cloud.tencent.com/developer/ask）提出本身的疑問，屆時會有邀請相關的產品同窗回答您的問題。

感謝你們對騰訊云云+社區及騰訊雲智能圖像的支持，如需瞭解更多騰訊雲OCR識別，請點擊：https://cloud.tencent.com/product/ocr。瞭解騰訊雲OCR接入流程請點擊：https://cloud.tencent.com/document/product/641/12412。想體驗騰訊雲AI更多產品請掃描下方小程序碼。騰訊雲AI合做請聯繫郵箱cloudAI@tencent.com，或添加智能圖像QQ羣：188257726。沒有及時參加本次活動的小夥伴，請查看歷史聊天記錄或等待工做人員將聊天記錄總結後的文章分享。更多優秀文章請關注雲+社區（https://cloud.tencent.com/developer）。

騰訊雲OCR接入流程

第 1 步：登錄帳號註冊並經過實名認證後，您能夠登陸【騰訊雲控制檯】（連接：https://console.cloud.tencent.com/ai）進行使用。若是沒有帳號，請參考【帳號註冊教程】（連接：https://cloud.tencent.com/document/product/378/9603）。

第 2 步：建立祕鑰完成註冊後，您須要在【訪問管理】（連接：https://console.cloud.tencent.com/cam/capi ）建立祕鑰。AppID、SecretID和SecretKey是您進行應用開發的惟一憑證，請妥善保管。

第 3 步：生成簽名經過簽名來驗證請求的合法性，用戶可使用AppID、SecretID和SecretKey生成簽名，具體簽名生成方法請參閱【簽名鑑權】（連接：https://cloud.tencent.com/document/product/641/12409）

第 4 步：調用API咱們爲您提供了豐富多樣的API接口，您能夠查看並調用【OCR】（連接：https://cloud.tencent.com/document/product/641/12407）服務。

第 5 步：查看調用您能夠登陸【騰訊雲控制檯】（連接：https://console.cloud.tencent.com/ai/ocr/namecard），查OCR的各服務調用狀況。

問答
OCR文字識別技術有哪些應用？
相關閱讀
文字識別OCR知識資料全集（入門/進階/論文/綜述/代碼/專家，附查看）
個人AI之路 —— OCR文字識別快速體驗版
 借你一雙「慧眼」：一文讀懂OCR文字識別︱技術派
 【每日課程推薦】機器學習實戰！快速入門在線廣告業務及CTR相應知識

此文已由做者受權騰訊雲+社區發佈，更多原文請點擊

搜索關注公衆號「雲加社區」，第一時間獲取技術乾貨，關注後回覆1024 送你一份技術課程大禮包！

海量技術實踐經驗，盡在雲加社區！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。