OCR是什麼？OCR技術特色介紹

時間 2019-11-09

標籤 ocr 什麼技術特色介紹简体版

原文原文鏈接

OCR是什麼？

　　假設你想要數字化一本雜誌的文章或印刷合同。你可能須要花時間從新輸入，而後糾正錯字。或者，你可使用掃描儀（或數碼相機）和光學字符識別軟件只須要花費幾分鐘轉換成數字格式的全部材料。學習

　　到底什麼是OCR呢? 設計

　　光學字符識別，簡稱OCR，是一種可使你轉換不一樣文檔的技術，好比將掃描紙質文檔,PDF文件或者數碼相機拍攝的圖片轉換成能夠編輯的文檔。圖片

　　假設你得到了一個紙質文件-好比,雜誌、彩頁或者你合做夥伴發給你的PDF合同。很明顯，光是一臺掃描儀是不足以讓這些文檔轉變成能夠編輯的文檔，也就是Microsoft Word。掃描儀能夠作的只是建立圖片或者一張黑白或者彩色的圖像文檔。爲了從掃描文檔、PDF或者數碼圖片中提取文字和數據，你須要OCR軟件識別圖片上的信息，從單詞到句子，而後變成整個能夠編輯的文檔。文檔

　　OCR背後是什麼技術？ get

　　人類識別物體的機制還須要繼續探索，可是3個基本的原則已經被科學家所掌握，集成性(integrity), 有明確目的性(purposefulness)和適應性(adaptability)統稱爲 (IPA*)。這也是ABBYY FineReader 實現的技術核心所模仿和遵循的原則。產品

　　讓咱們來看一下FineReader OCR是如何識別一個文檔的。首先，這個程序分析文檔圖片的結構。它將文檔分紅一些基本元素，好比文檔塊，表格，圖片等。這些線分割成單詞，再分割成字母。一旦這個字母已經被識別出來，這個程序將和一些模板圖片進行對比。他將進行大量的邏輯分析這個字母是什麼。基於這些邏輯，程序將分析單詞和字母。進行完大量的可能性分析後，這個程序最後將判斷並呈現出識別的文檔。 it

　　另外，ABBYY FineReader 提供支持36種語言的字典。這將有助於在第二個層面分析文檔的元素。在字典的支持下，能夠進行更加精確分析和文檔識別，下降未來識別結果的校驗。模板

　　FineReader OCR的基本原理原理

　　最早進的識別系統，好比ABBYY　FineReader OCR，是模仿人工識別。在覈心，這些系統遵循3個基本的原則：集成性(integrity), 有明確目的性(purposefulness)和適應性(adaptability)。實際的意思是說觀察物體必須考慮到這個物體的內部相關性。目的性是指數據的表達都有必定目標性。適應性是指程序必須具備自學習能力。軟件

　　每一個人不須要成爲OCR專家，並瞭解OCR內部的IPA。這些規則只是提供類最大的靈活性和智能性，並最大可能模板人工識別。

　　通過多年的研究，ABBYY能夠將IPA原則運用到OCR產品中。

　　識別數碼相片

　　數碼相機拍攝的圖片和掃描文檔和PDF文檔有所不一樣。他們經常有所扭曲，昏暗，不利於OCR正確識別文檔。ABBYY FineReader 最新版本支持適應性識別，特別爲處理數碼圖片而設計。它提供了一系列功能特性來提升圖片質量，使你能夠充分使用您的數碼設備。

　　OCR將爲你帶來什麼好處。

　　使用ABBYY FineReader，識別出來的文檔就像是原始文檔同樣。先進的、強大的OCR軟件將幫助你節省大量的時間和精力，使你免於建立、處理不一樣的文檔。使用ABBYY FineReader，你能夠掃描文檔以備未來編輯、並與你的同事共享。你能夠從書籍、雜誌中抽取信息，併爲你本身的研究提供資料和素材，而不須要從新打字輸入。利用數碼相機和OCR，你能夠捕捉公告欄、海報和時間表上捕捉信息，知足你使用的須要。同時，你能夠捕捉報紙和書籍信息，甚至在手邊沒有掃描儀的時候也能夠完成捕捉。另外，你還可使用OCR軟件建立可搜索式的PDF文檔。

　　從初始紙質文檔、圖片和PDF文件和數據轉換的整個過程只須要一分鐘，識別完的結果幾乎和原始的幾乎同樣。

　　如何使用OCR軟件?

　　使用ABBYY FineReader OCR很是容易，過程由3個步驟組成：打開或者掃描文檔，識別，而後保存成你須要的格式（DOC, RTF, XLS, PDF, HTML, TXT 等等.) 或者直接輸出數據到office應用，好比Microsoft Word, Excel or Adobe Acrobat。

　　另外，最新版本ABBYY FineReader支持自動任務模式，這將對您平常工做大有幫助。有了這個功能，識別任務將自動運行，而不須要人工干預。更有ABBYY FineReader mac版供免費下載！

原文來自：http://www.twain100.com/xinwen/626轉載請註明出處