OCR是什麼?
假設你想要數字化一本雜誌的文章或印刷合同。你可能須要花時間從新輸入,而後糾正錯字。或者,你可使用掃描儀(或數碼相機)和光學字符識別軟件只須要花費幾分鐘轉換成數字格式的全部材料。 學習
到底什麼是OCR呢? 設計
光學字符識別,簡稱OCR,是一種可使你轉換不一樣文檔的技術,好比將掃描紙質文檔,PDF文件或者數碼相機拍攝的圖片轉換成能夠編輯的文檔。 圖片
假設你得到了一個紙質文件-好比,雜誌、彩頁或者你合做夥伴發給你的PDF合同。很明顯,光是一臺掃描儀是不足以讓這些文檔轉變成能夠編輯的文檔,也就是Microsoft Word。掃描儀能夠作的只是建立圖片或者一張黑白或者彩色的圖像文檔。爲了從掃描文檔、PDF或者數碼圖片中提取文字和數據,你須要OCR軟件識別圖片上的信息,從單詞到句子,而後變成整個能夠編輯的文檔。 文檔
OCR背後是什麼技術? get
人類識別物體的機制還須要繼續探索,可是3個基本的原則已經被科學家所掌握,集成性(integrity), 有明確目的性(purposefulness)和適應性(adaptability)統稱爲 (IPA*)。這也是ABBYY FineReader 實現的技術核心所模仿和遵循的原則。 產品
讓咱們來看一下FineReader OCR是如何識別一個文檔的。首先,這個程序分析文檔圖片的結構。它將文檔分紅一些基本元素,好比文檔塊,表格,圖片等。這些線分割成單詞,再分割成字母。一旦這個字母已經被識別出來,這個程序將和一些模板圖片進行對比。他將進行大量的邏輯分析這個字母是什麼。基於這些邏輯,程序將分析單詞和字母。進行完大量的可能性分析後,這個程序最後將判斷並呈現出識別的文檔。 it
另外,ABBYY FineReader 提供支持36種語言的字典。這將有助於在第二個層面分析文檔的元素。在字典的支持下,能夠進行更加精確分析和文檔識別,下降未來識別結果的校驗。 模板
FineReader OCR的基本原理 原理
最早進的識別系統,好比ABBYY FineReader OCR, 是模仿人工識別。在覈心,這些系統遵循3個基本的原則:集成性(integrity), 有明確目的性(purposefulness)和適應性(adaptability)。實際的意思是說觀察物體必須考慮到這個物體的內部相關性。目的性是指數據的表達都有必定目標性。適應性是指程序必須具備自學習能力。 軟件
每一個人不須要成爲OCR專家,並瞭解OCR內部的IPA。這些規則只是提供類最大的靈活性和智能性,並最大可能模板人工識別。
通過多年的研究,ABBYY能夠將IPA原則運用到OCR產品中。
識別數碼相片
數碼相機拍攝的圖片和掃描文檔和PDF文檔有所不一樣。他們經常有所扭曲,昏暗,不利於OCR正確識別文檔。ABBYY FineReader 最新版本支持適應性識別,特別爲處理數碼圖片而設計。它提供了一系列功能特性來提升圖片質量,使你能夠充分使用您的數碼設備。
OCR將爲你帶來什麼好處。
使用ABBYY FineReader,識別出來的文檔就像是原始文檔同樣。先進的、強大的OCR軟件將幫助你節省大量的時間和精力,使你免於建立、處理不一樣的文檔。使用ABBYY FineReader,你能夠掃描文檔以備未來編輯、並與你的同事共享。你能夠從書籍、雜誌中抽取信息,併爲你本身的研究提供資料和素材,而不須要從新打字輸入。利用數碼相機和OCR,你能夠捕捉公告欄、海報和時間表上捕捉信息,知足你使用的須要。同時,你能夠捕捉報紙和書籍信息,甚至在手邊沒有掃描儀的時候也能夠完成捕捉。另外,你還可使用OCR軟件建立可搜索式的PDF文檔。
從初始紙質文檔、圖片和PDF文件和數據轉換的整個過程只須要一分鐘,識別完的結果幾乎和原始的幾乎同樣。
如何使用OCR軟件?
使用ABBYY FineReader OCR很是容易,過程由3個步驟組成:打開或者掃描文檔,識別,而後保存成你須要的格式(DOC, RTF, XLS, PDF, HTML, TXT 等等.) 或者直接輸出數據到office應用,好比Microsoft Word, Excel or Adobe Acrobat。
另外,最新版本ABBYY FineReader支持自動任務模式,這將對您平常工做大有幫助。有了這個功能,識別任務將自動運行,而不須要人工干預。更有ABBYY FineReader mac版供免費下載!
原文來自:http://www.twain100.com/xinwen/626轉載請註明出處