LTP(Language Technology Platform)由哈工大社會計算與信息檢索研究中心開發,提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等豐富、 高效、精準的天然語言處理技術。html
LTP的源碼是C++,也提供Java和Python版本。Python版本的安裝方法是在cmd下輸入python
pip install pyltp
安裝須要C++的編譯環境。git
然而在安裝包下載下來開始安裝的時候,報下面的錯誤github
Exception: Traceback (most recent call last): File "d:\ python36\lib\site-packages\pip\compat\__init__.py", line 73, in console_to_str return s.decode(sys.__stdout__.encoding) UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 3: invalid continuation byte
很明顯是編碼的問題,找到d:\ python36\lib\site-packages\pip\compat\__init__.py文件,第73行,把sys.__stdout__.encoding改爲「gbk」,再次安裝,這個錯誤消失。由於Windows中文版經常使用的編碼就是ansi、utf-八、gbk、gb2312這幾種,試兩次就能肯定。windows
以後的編譯,又報了error: command 'D:\Microsoft Visual Studio 14.0\VC\bin\cl.exe' failed with exit status 2錯誤,屢次調試沒經過。我就去ltp的GitHub(https://github.com/HIT-SCIR/pyltp)上找Issues,在其中一條(https://github.com/HIT-SCIR/pyltp/issues/94)下面找到了一個博客,http://mlln.cn/2018/01/31/pyltp%E5%9C%A8windows%E4%B8%8B%E7%9A%84%E7%BC%96%E8%AF%91%E5%AE%89%E8%A3%85/,博主的第二種方案提供了編譯好的whl文件,正好個人python是3.6的,順利安裝上。編碼
PS:記得把d:\ python36\lib\site-packages\pip\compat\__init__.py文件改回去。spa
下一步,從http://ltp.ai/download.html下載模型文件,解壓到一個文件夾下,到此,安裝完成。調試