1.什麼是OCR?html
OCR (Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,經過檢測暗、亮的模式肯定其形狀,而後用字符識別方法將形狀翻譯成計算機文字的過程;即,對文本資料進行掃描,而後對圖像文件進行分析處理,獲取文字及版面信息的過程。如何除錯或利用輔助信息提升識別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也所以而產生。衡量一個OCR系統性能好壞的主要指標有:拒識率、誤識率、識別速度、用戶界面的友好性,產品的穩定性,易用性及可行性等。工具
2.OCR典型應用有哪些?性能
全文識別:建立可檢索文檔 字體
當文檔以圖像,傳真或者掃描文檔形式存在時,是不容易進行搜索的。OCR可將文本圖像轉換成實際可搜索的文本。Google Desktop 和Windows Desktop Search可爲這些帶有OCR識別的PDF文件和XPS文件編索引,使你經過常規的文本搜索找到所需文件。 ui
區域識別:表格填報 google
在平常工做和生活中,保單,納稅申報,發票和支票等都會涉及到表單。如何使表單處理輕鬆而快速呢?絕大多數表單處理解決方案都是經過OCR來收集打印數據,ICR 來收集手寫數據,OMR來檢測所填數據。結構化的表單處理一般採用分區OCR和ICR。 .net
3.OCR識別率取決於哪些因素?翻譯
1.掃描分辨率:不求最「高」,只求最「佳」。根據經驗,五號印刷體採用250~300dpi比較合適;字號比較大(四號以上),用150~200dpi就足夠了;code
2.對比度:爲了達到最佳的識別效果,對輸入稿件在掃描時的要求是清晰,使掃描文件黑白分明,有利於軟件的識別;htm
3.偏斜程度:如今的OCR大都採用字模識別的方式,所以圖像若是有必定程度的傾斜,就會嚴重影響識別效果,一方面須要儘可能擺正掃描文件,另外一方面還須要使用軟件進行偏斜校訂;
4.圖片模式:通常對彩色模式識別不好,黑白模式(Line/art)的圖片識別較好;
5.字體:印刷體識別率高,手寫體識別率很低,須要人工校訂;
4.OCR開源項目
1.OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html
2.Clara OCR, http://directory.fsf.org/claraocr.html
3.Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html
4.GOCR, http://sourceforge.net/projects/jocr
5.OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html
6.Tesseract, http://code.google.com/p/tesseract-ocr/
5.一些OCR工具
1.gscan2pdf: