歡迎你們前往騰訊雲+社區,獲取更多騰訊海量技術實踐乾貨哦~算法
本文由 騰訊雲AI中心發表於 雲+社區專欄
摘要:在平常生活工做中,咱們不免會遇到一些問題,好比本身辛辛苦苦寫完的資料,好不容易打印出來卻發現源文件丟了;收集了一些名片,卻要一個一個地錄入信息,很麻煩;快遞公司的業務愈來愈好,但天天須要花費不少時間登記錄入運單,效率很是的低。服務器
那麼,有沒有什麼技術能幫助咱們解決這些難題呢?有的,那就是OCR文字識別技術。今天咱們請到了騰訊雲大數據AI產品中心的AI科學家冀永楠、產品經理Florali、陳英恬,高級工程師肖西華爲我們分享一下騰訊雲近年來在這一領域的探索狀況。微信
前面顯示:讓你把這個世界看得清清楚楚,真真切切網絡
文︱Flora框架
什麼是OCR?機器學習
OCR 是實時高效的定位與識別圖片中的全部文字信息,返回文字框位置與文字內容。支持多場景、任意版面下整圖文字的識別,以及中英文、字母、數字的識別。簡單來講,就是將圖片上的文字內容,智能識別成爲可編輯的文本,例如:學習
OCR的技術原理是什麼?字體
OCR本質是圖像識別。其原理也和其餘的圖像識別問題基本同樣。包含兩大關鍵技術:文本檢測和文字識別。先將圖像中的特徵進行提取並檢測目標區域,以後對目標區域的字符進行分割和分類。大數據
以深度學習興起的時間爲分割點,直至近五年以前,業界最爲普遍使用的仍然是傳統的OCR識別技術框架,而隨着深度學習的崛起,基於這一技術的OCR識別框架以另一種新的思路迅速突破了原有的技術瓶頸(如文字定位、二值化和文字分割等),並已在工業界獲得普遍應用。優化
首先文本定位,接着進行傾斜文本矯正,以後分割出單字後,並對單字識別,最後基於統計模型(如隱馬爾科夫鏈,HMM)進行語義糾錯。
OCR技術的難點是什麼?
複雜背景、藝術字體、低分辨率、非均勻光照、圖像退化、字符形變、多語言混合、文本複雜版式、檢測框字符殘缺,等等。
如何克服這些難點?
從幾個方面入手。一是使用場景,另外一方面是從技術上進行改進。騰訊優圖實驗室在文本檢測技術方進行了深度優化,提出了Compact Inception,經過設計合理的網絡結構來提高各尺度的文字檢測/提取能力。同時引入RNN多層自適應網絡和Refinement結構來提高檢測完整性和準確性。
騰訊雲OCR目前支持什麼功能?
基於騰訊優圖實驗室世界領先的深度學習技術,目前咱們已支持:身份證識別,銀行卡識別,名片識別,營業執照識別,行駛證駕駛證識別,車牌號識別,通用印刷體識別,手寫體識別。
通用印刷體的技術難點,使用場景
咱們知道身份證識別可普遍應用在金融行業中,在身份認證中,能夠減小用戶的信息輸入,提高效率,提升用戶體驗,營業執照的識別徹底省去了手工錄入的繁瑣,還能夠爲企業省去大量的人力資源成本,這些場景你們都已經比較熟悉。
對於通用印刷體,騰訊優圖實驗室自主設計一整套全方位多尺度文字識別引擎,可攻破模糊,散焦,透視,文字部分遮擋的問題,識別準確率高達90%以上,處於業界領先水平。使用場景普遍,例如對任意版面上圖像的文字識別,可普遍應用在印刷文檔、廣告圖、醫療、物流等行業中的識別。
對於通用印刷體有沒有什麼好的例子?
例如這個廣告,內容多字體多,中英文與數字混合,背景也比較隨意。我們的OCR經過透視矯正、去模糊等,能大幅還原圖像真實度,極大提高算法的精確性。
再例如識別文字密集、行間距小,透視畸變等的海報。人工識別須要不只耗費時間,肉眼也比較難識別。但騰訊雲OCR設計了小而精的特徵提取網絡,配合先進的預處理技術,識別準確率高達93%以上。
有時候也會遇到識別率不理想的狀況,如何能夠提升識別準確率?
首先會確認下當前的場景,形成準確度不高的緣由。評估可提升的空間設計,以後作出相應的修改,列入預處理等等。
關於騰訊雲手寫體識別這塊有沒有什麼案例?
騰訊是國內首家將手寫體識別應用在複雜場景下的服務商,數字識別準確率高達90%以上,單字識別速度在15ms之內,複雜漢字準確率超過80%。
騰訊雲手寫體OCR已運用到運單識別場景,解決了物流行業每日快遞單人工輸入工做量極大且極易出錯,很是低效等問題。
運單識別與傳統人工識別有什麼區別呢?
若是傳統人工識別按照3min/單,1000單須要6.25我的/天,保證運單時效則須要耗費大量人力,考慮人力成本則影響運單及時性,成本和服務難兩全。
咱們的運單識別速度能夠達到毫秒級/單,並支持24小時識別服務 ,業務增加時只須要投入計算用服務器資源便可,彈性較大。
與傳統識別相比,不只成本能夠下降,提升準確性,還能夠保護用戶的隱私泄露風險。
目前OCR應用現實中有很普遍的應用場景,騰訊雲OCR有什麼優點?
我們的OCR文字識別技術,目前支持中文簡繁體、英文、數字、標點共10000+標籤,覆蓋上百種字體,生僻字版本更支持2W+標籤 。
那我們在行業中也有很多落地客戶了吧?
新版手Q就用到了我們的技術,在掃一掃、聊天窗口和空間圖片大圖預覽共三個入口上支持了提取圖片中文字的功能。
方便用戶閱讀、編輯、保存圖片上的文字,從而能夠對提取出的文字進行翻譯、搜索。在多種場景下能夠極大提高用戶對圖片上文字的閱讀和記錄效率。
企業微信中的名片識別也用到了我們OCR技術。用戶只需拍照或選擇名片圖片,就能準確快速地識別出名片中的文字,並自動提取爲對應的字段,極大簡化了名片錄入流程,也避免了手動錄入過程可能出現的錯誤。
問答
文字識別在格式上有什麼要求?
相關閱讀
多個場景中的AI落地實踐
「猜畫小歌」的一些細節和思考
低於0.01%的極致Crash率是怎麼作到的?
雲學院 · 課程推薦 | 知乎KOL,與你分享機器學習中如何作選擇
此文已由做者受權騰訊雲+社區發佈,更多原文請點擊
搜索關注公衆號「雲加社區」,第一時間獲取技術乾貨,關注後回覆1024 送你一份技術課程大禮包!
海量技術實踐經驗,盡在雲加社區!