OCR：精準、穩定、易用的文字識別

時間 2019-12-07

標籤 ocr 精準穩定易用文字識別简体版

原文原文鏈接

OCR：精準、穩定、易用的文字識別算法

你們好，今天給你們介紹精準、穩定、易用的文字識別應用服務OCR。
OCR是英文光學字符識別的縮寫，一般叫法爲文字識別。它的工做原理是經過掃描儀或數碼相機等光學輸入設備來獲取紙張上的文字圖片信息，利用各類模式識別算法，分析文字形態特徵，判斷出合適的標準編碼，而後按照通用的格式，存儲在文本文件中。因而可知OCR其實是讓計算機認字，實現文字的自動輸入，它是一種快捷、省力、高效的文本輸入方法。
文字識別的基本三要素就是O、C、R。O表明光學，即識別的是光線給出的文字，而不是聲音，或者人體的觸感等等。那爲何會有光呢？主要是由於光的反射和物理會吸取光線。其次還要求字的顏色和背景是不同的。那一樣它對於輸入的圖片的話，儘量的要保證圖片的清晰度。第二個要素就是C，也就是字符的意思。你們須要注意的是，字符是信息的一種編碼，不是字體。字符主要是實現信息的編碼，好比說你們看到一張蘋果的圖片，那咱們第一反應它能夠表明中文的蘋果這兩個字符，或者對應到英文的apple這個字符。所謂的文字其實就是一種字符，好比說你們經常使用的漢字，那就是中國人的字符。計算機顯然也是須要對應到一個編碼字符。好比說咱們經常使用的GBK、Unicode、UTF-8等等，那這時候就會產生一個問題，若是有的字的圖像在計算機編碼裏面沒有對應的信息，那是否是說這個文字就沒辦法被識別呢？答案是，的確如此。因此說咱們所使用的文字編碼級，必定要儘量的覆蓋咱們所要識別的字符。文字識別第三個要素就是R，它表明了識別的意思。剛剛咱們瞭解到了，O和C它分別表明了光學的圖片和對應的字符。那如何將光學的圖片映射到計算機編碼呢？目前關於如何將圖片字符轉換到光學字符，有兩種方法，一種是傳統方法，還有一種是基於深度學習的方法。在咱們華爲雲學院的課程中會給你們作一個詳細的介紹。須要注意的是OCR是指文字識別，可是OCR所採用的技術不只僅是適用於文字識別。
那麼對於企業來講，爲何要使用OCR技術呢？舉個例子，你們出差以後須要進行報銷，報銷的時候須要填寫不少的信息，一樣公司的財務人員須要花費一個較長的時間來進行INVOICE的一次次審覈，有可能一個報銷單須要通過三個或者說更多的財務人員進行一次次的審覈校對。那即使如此，在咱們平常報銷中，也多多少少會出現一些人爲的錯誤。那麼OCR技術可不能夠幫助咱們實現INVOICE的快速準確的讀取呢？答案是確定的。因而可知，OCR技術能夠對於企業來講，它能夠減小相關人員審覈所產生的成本，以及減小審覈所須要的流程。總結一下企業爲何須要使用OCR技術，第一，是爲了下降重複性的勞動成本。第二，它能夠提升業務效率，第三，它可以提升文本識別的精確度。
OCR在企業中主要運用於哪些場景呢？這裏作了一個總結。第一文檔場景，它主要用於印刷文檔的識別，翻譯文字的識別，搜索識別，塗抹識別。第二，電商場景，主要用於電商用戶身份的綁定，實名認證，商家身份認證。第三，圖片反做弊場景，它主要識別圖像和視頻中的一些違規文字，進行一些違規的處理和風險管控。第四，辦公場景，主要會用於企業證件、年報、財報、piao據識別。而後接着是金融場景，它主要會用於客戶的身份識別，身份綁定，我的信息覈實。最後一個就是視頻場景，主要是會用於視頻字幕的識別，視頻標題的識別，視頻反做弊，圖像反做弊，評論反做弊等。
文字識別的技術難點主要存在如下幾個方面，第一就是圖像質量差，不少場景待識別的文本圖片的質量每每都不好，它存在嚴重的一些干擾曲線，傾斜、暗光或者曝光扭曲。好比說咱們經常使用的一些海關的報關的掃描單據。第二它對精確度要求特別高，在某些場景，用戶對於數值的精確度要求特別高。好比說文本中的一些稅率、金額、幣種等文字的精確度要求高達百分之百。第三就是識別內容較爲複雜，文本內容的複雜多樣性，例如說一個文本中有可能存在不一樣的字體和顏色，小數點近似的英文數字，特殊的字符，特殊的符號鏈接詞以及數字的內容，它的識別難度會很大，很容易被漏識，或者誤識。第四就是語言的種類的繁多，隨着全球化如今愈來愈擴大，每家公司多多少少都會涉及到多個國家，這時候就要求OCR技術可以支持多語言多字符。
以上對文字識別進行了簡要的介紹，訪問華爲雲學院（https://edu.huaweicloud.com/），報名學習《文字識別服務》課程，瞭解更多文字識別關鍵技術及應用實踐。華爲雲學院現已發佈推出《智能表單和證件文字識別》微認證，微認證結合OCR服務，讓您體驗智能識別帶來的效率提高！app

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。