到底什麼是OCR

OCR(Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,經過檢測暗、亮的模式肯定其形狀,而後用字符識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字符,採用光學的方式將紙質文檔中的文字轉換成爲黑白點陣的圖像文件,並經過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。工具

一個OCR識別系統,其目的很簡單,只是要把影像做一個轉換,使影像內的圖形繼續保存、有表格則表格內資料及影像內的文字,一概變成計算機文字,使能達到影像資料的儲存量減小、識別出的文字可再使用及分析,固然也可節省因鍵盤輸入的人力與時間。 從影像到結果輸出,須通過影像輸入、影像前處理、文字特徵抽取、比對識別、最後經人工校訂將認錯的文字更正,將結果輸出。佈局

OCR識別技巧字體

OCR光學字符識別

1.分辨率的設置是文字識別的重要前提。通常來說,掃描儀提供較多的圖像信息,識別軟件比較容易得出識別結果。但也不是掃描分辨率設得越高識別正確率就越高。選擇300dpi或400dpi分辨率,適合大部分文檔掃描。注意文字原稿的掃描識別,設置掃描分辨率時千萬不要超過掃描儀的光學分辨率,否則會得不償失。spa

2. 掃描時適當地調整好亮度和對比度值,使掃描文件黑白分明。這對識別率的影響最爲關鍵,掃描亮度和對比度值的設定以觀察掃描後的圖像中漢字的筆畫較細但又不斷開爲原則。進行識別前,先看看掃描獲得的圖像中文字質量如何,若是圖像存在黑點或黑斑時或文字線條很粗很黑,分不清筆畫時,說明亮度值過小了,應該增長亮度值在試試;若是文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大了,應減少亮度後再試試。翻譯

3.選好掃描軟件。選一款好的適合本身的OCR軟件是做好文字識別工做的基礎。ABBYY FineReader 12 OCR文字識別軟件提供快速、準確、方便的方式來掃描文件、PDF格式、數字或移動電話圖像轉換成可編輯的格式,與99,8%的識別準確率OCR技術即刻可以識別文本,複製和粘貼,搜索或編輯,轉換幾乎全部打印的文檔類型,包括書籍,雜誌上的文章與複雜的佈局。
再選一個圖像軟件,第一,OCR軟件不能識別全部的掃描儀;第二,也是最關鍵的,利用圖像軟件的掃描接口掃描出來的圖像便於處理。接口

4.在掃描識別報紙或其餘半透明文稿時,背面的文字透過紙張混淆文字字形,對識別會形成很大的障礙。遇到該類掃描,只要在掃描原稿的背面附。蓋一張黑紙,掃描時,增長掃描對比度,便可減小背面模糊字體的影響,提升識別正確率。文檔

5.通常文本掃描原稿都爲黑、白兩色原稿,可是在掃描設置時卻常將掃描模式設爲灰度模式。特別是在原稿質量較差時,使用灰度模式掃描,並在掃描軟件處理完後再繼續識別,這樣會獲得較好的識別正確率。get

6.遇到圖文混排的掃描原稿,首先明確使用的識別軟件是否支持自動分析圖文這一功能。使用ABBYY FineReader 12就不用擔憂這個問題,在進行這類掃描識別時,軟件會自動計算出文本的內容、位置和前後順序,文字部分能夠按照標示順序正常識別。it

7.在放置掃描原稿時,把掃描的文字材料必定要擺放在掃描起始線正中,以最大限度地減少因爲光學透鏡致使的失真。同時應保護掃描儀玻璃的乾淨和不受損害。io

8.先「預覽」總體版面,選定要掃描的區域,再用「放大預覽」工具,選擇一小塊進行放大顯示到全屏幕,觀察其文字的對比度,文字的深淺濃度,據狀況調整"閥值"的大小,最終要求文字清晰,不濃(文字成團),不淡(文字斷筆伐),通常在「閥值」80左右爲宜,最後再掃描。

9.若是要掃描印刷質量稍微差一些的文章,好比說報紙,掃描的結果將不會黑白分明,會出現大量的黑點,並且在字體的筆畫上也會出現粘連現象。爲得到較好的識別結果,必須仔細進行色調調節,反覆掃描屢次才能得到比較理想的結果。

相關文章
相關標籤/搜索