OCR (Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,經過檢測暗、亮的模式肯定其形狀,而後用字符識別方法將形狀翻譯成計算機文字的過程。優秀的開源OCR軟件包括:html
雲服務商提供服務:python
OpenCV VS tesseract:linux
因爲tesserocr在windows環境下會出現各類不兼容問題,而且與pycharm虛擬環境不兼容等問題,因此在windows系統環境下,選擇pytesseract模塊進行安裝 ios
Tesseractgit
Tesserocr 是Python的一個OCR庫,但實際上是對tesseract作的一層Python API的封裝,因此他的核心是tesseract。所以,在安裝tesserocr以前,咱們須要先安裝tesseract。 實際使用tesseract ocr也有兩種方式:1- 動態庫方式 libtesseract 2 - 執行程序方式 tesseract.exegithub
安裝過程:segmentfault
安裝Tesseractwindows
找到中文簡體和中文繁體,按需勾選,而後點下一步。能夠先不勾選,由於這樣直接下載語言的包實在太慢。能夠從網頁上直接下載語言包,而後等程序安裝好後,放入安裝目錄下tessdata目錄下面,以下圖:ide
配置:佈局
驗證安裝:
落地驗證:
python用tesseract-ocr作圖像識別
須要導入兩個庫,這是別人寫好的封裝好的庫文件。
Python-tesseract: 是Tesseract OCR引擎的Python封裝類。可以讀取任何常規的圖片文件(JPG, GIF ,PNG , TIFF等)並解碼成可讀的語言。在OCR處理期間不會建立任何臨文件
PIL (Python Imaging Library):是 Python 中最經常使用的圖像處理庫。
python對圖像的處理比較常見的是用 pytesseract 識別驗證碼,要安裝pytesseract庫,必須先安裝其依賴的 PIL 及 tesseract-ocr,其中PIL爲圖像處理庫,然後面的tesseract-ocr則爲google的ocr識別引擎。
示例代碼:
import pytesseract from PIL import Image as img text = pytesseract.image_to_string(img.open('image.png')) print(text)
示例結果:
帶中文圖片示例(示例圖片是從百度圖片上下載的):
中文效果並不理想,下一節介紹訓練過程
相關連接:
參考資料: