一、hanlp簡介java
HanLP是一系列模型與算法組成的NLP工具包,由大快搜索主導並徹底開源,目標是普及天然語言處理在生產環境中的應用。HanLP具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色。python
開源網址:HanLP: Han Language Processing算法
但因爲hanlp是用java來實現的,要在python中使用hanlp,只能經過調用pyhanlp這個包來。架構
可是pyhanlp裏面有一些功能仍然不支持python直接調用,好比漢字轉拼音,這時候就須要從python中啓動jvm並指定Hanlp的jar路徑來使用其餘功能了。jvm
2、下載並配置文件工具
(1)從開源網址中下載jar、data、hanlp.properties並修改配置文件:性能
一、下載:data.zipspa
下載後解壓到任意目錄,接下來經過配置文件hanlp.properties告訴HanLP數據包的位置。blog
dataip
│
├─dictionary
└─model
用戶能夠自行增刪替換,若是不須要句法分析等功能的話,隨時能夠刪除model文件夾。
3、下載jar和配置文件:hanlp-release.zip
(1)配置文件hanlp.properties的做用是告訴HanLP數據包的位置,只需修改第一行爲data的父目錄便可:
root=D:/JavaProjects/HanLP/
好比data目錄是/Users/hankcs/Documents/data,那麼root=/Users/hankcs/Documents/ 。
(2)從python中啓動jvm以及添加jar包路徑
其中-Djava.class.path是用來添加jar包到classpath中,而後用startJVM來啓動jvm。
startJVM第一個參數是系統內的jvm位置,第二個爲*arg參數,此處放置classpath。
以上獲得的是java的ArrayList類型,須要將他裝換爲string類型:
結果以下:
4、最後記得關閉JVM
--------------------
做者:Juanly Jack