由於用的win10,就直說windows上面的安裝了。其實就是pip安裝就完事了。python
$ pip install pytesseract
安裝了這個還不算完,得安裝Tesseract-OCR,安裝這個軟件的時候,由於咱們須要識別中文,因此還須要額外安裝中文語言包:git
點擊Additional language data(download)
旁邊的加號,勾選中文語言包,而後就一路Next了:github
最後,你還能夠將tesseract.exe加進系統的Path
裏面。shell
pytesseract不只支持英文,還支持不少其餘語言,從上面安裝過程當中勾選的地方就能看出來,中文,也不例外。windows
要使用pytesseract,其實很簡單:google
from PIL import Image import pytesseract image = Image.open('pic2.png') imtext = pytesseract.image_to_string(image,lang='chi_sim') print(imtext)
看起來是沒什麼問題的,可是一運行。。。。code
C:\ProgramData\Anaconda3\python.exe F:/python/pro/Pic_t/test.py Traceback (most recent call last): File "F:/python/pro/Pic_t/test.py", line 5, in <module> imtext = pytesseract.image_to_string(image,lang='chi_sim') File "C:\ProgramData\Anaconda3\lib\site-packages\pytesseract\pytesseract.py", line 125, in image_to_string raise TesseractError(status, errors) pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata') Process finished with exit code 1
就報錯了,這裏看來是中文的語言訓練集路徑不對,google了一下,有大神說使用config
屬性:ip
from PIL import Image import pytesseract image = Image.open('pic2.png') # 指定路徑 tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"' imtext = pytesseract.image_to_string(image,lang='chi_sim',config=tessdata_dir_config) print(imtext)
運行了一下,成功了。。。get
另外,lang
這個屬性是指定語言的,要是代碼裏面不給這個參數,默認是英文,也就是eng
。string