python中文ocr方案-pytesseract

pytesseract是google維護的具備學習功能的OCR引擎,3.0之後支持中文識別。學習

安裝:google

1. 安裝tesseract-ocr組件;記得同步下載簡體中文與英文語言包。調試

2. 安裝PIL,需注意Windows64位版本code

3. pip install pytesseract圖片

使用:ip

image = Image.open("1.jpg")  # 打開圖片image.load()  # 加載一下圖片,防止報錯,此處可省略image.show()  # 調用show來展現圖片,調試用,可省略tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'vcode = pytesseract.image_to_string(image, lang='chi_sim', config=tessdata_dir_config)print vcode
相關文章
相關標籤/搜索