pyltp安裝踩坑記錄

LTP(Language Technology Platform)由哈工大社會計算與信息檢索研究中心開發,提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等豐富、 高效、精準的天然語言處理技術。html

LTP的源碼是C++,也提供Java和Python版本。Python版本的安裝方法是在cmd下輸入python

pip install pyltp

安裝須要C++的編譯環境。git

然而在安裝包下載下來開始安裝的時候,報下面的錯誤github

Exception:

Traceback (most recent call last):

  File "d:\ python36\lib\site-packages\pip\compat\__init__.py", line 73, in console_to_str

    return s.decode(sys.__stdout__.encoding)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 3: invalid continuation byte

 

很明顯是編碼的問題,找到d:\ python36\lib\site-packages\pip\compat\__init__.py文件,第73行,把sys.__stdout__.encoding改爲「gbk」,再次安裝,這個錯誤消失。由於Windows中文版經常使用的編碼就是ansi、utf-八、gbk、gb2312這幾種,試兩次就能肯定。windows

以後的編譯,又報了error: command 'D:\Microsoft Visual Studio 14.0\VC\bin\cl.exe' failed with exit status 2錯誤,屢次調試沒經過。我就去ltp的GitHub(https://github.com/HIT-SCIR/pyltp)上找Issues,在其中一條(https://github.com/HIT-SCIR/pyltp/issues/94)下面找到了一個博客,http://mlln.cn/2018/01/31/pyltp%E5%9C%A8windows%E4%B8%8B%E7%9A%84%E7%BC%96%E8%AF%91%E5%AE%89%E8%A3%85/,博主的第二種方案提供了編譯好的whl文件,正好個人python是3.6的,順利安裝上。編碼

PS:記得把d:\ python36\lib\site-packages\pip\compat\__init__.py文件改回去。spa

 

下一步,從http://ltp.ai/download.html下載模型文件,解壓到一個文件夾下,到此,安裝完成。調試

相關文章
相關標籤/搜索