python實現中文圖片文字識別--OCR about chinese text--tesseract

0.個人環境:python

win7 32bits小程序

python 3.5測試

pycharm 5.0 google

 

1.相關庫spa

安裝pillow:code

pip install pillowblog

安裝tesseract:圖片

tesseract-ocr-setup-3.02.02.exeip

自帶了英文語言包,若是須要中文語言包往下找便可。utf-8

或者在安裝的時候,在選項lang處,點選chi-sim便可。

安裝完畢後,會兒自動加入系統環境變量中。

安裝pytesseract:

pip install pytesseract

 

2.修改pytesseract.py原文件

# tesseract_cmd = 'tesseract'

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

#若是不修改,會報錯:FileNotFoundError: [WinError 2] 系統找不到指定的文件。

#f = open(output_file_name)

f = open(output_file_name, encoding='utf-8')

#若是不修改,會兒報錯:UnicodeDecodeError: 'gbk' codec can't decode byte 0xyy in position xxx: illegal multibyte sequence

 

3.小程序,測試一下

 1 #coding:utf-8
 2 #Test one page
 3 import pytesseract
 4 from PIL import Image
 5 
 6 def processImage():
 7     image = Image.open('test.png')
 8 
 9     #背景色處理,無關緊要
10     image = image.point(lambda x: 0 if x < 143 else 255)
11     newFilePath = 'raw-test.png'
12     image.save(newFilePath)
13 
14     content = pytesseract.image_to_string(Image.open(newFilePath), lang='eng')
15     #中文圖片的話,是lang='chi_sim'
16     print(content)
17 
18 processImage()
相關文章
相關標籤/搜索