Hanlp漢字轉拼音使用python調用詳解

一、hanlp簡介java

HanLP是一系列模型與算法組成的NLP工具包,由大快搜索主導並徹底開源,目標是普及天然語言處理在生產環境中的應用。HanLP具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色。python

開源網址:HanLP: Han Language Processing算法

但因爲hanlp是用java來實現的,要在python中使用hanlp,只能經過調用pyhanlp這個包來。架構

可是pyhanlp裏面有一些功能仍然不支持python直接調用,好比漢字轉拼音,這時候就須要從python中啓動jvm並指定Hanlp的jar路徑來使用其餘功能了。jvm

2、下載並配置文件工具

(1)從開源網址中下載jar、data、hanlp.properties並修改配置文件:性能

一、下載:data.zipspa

下載後解壓到任意目錄,接下來經過配置文件hanlp.properties告訴HanLP數據包的位置。blog

dataip

├─dictionary

└─model

用戶能夠自行增刪替換,若是不須要句法分析等功能的話,隨時能夠刪除model文件夾。

3、下載jar和配置文件:hanlp-release.zip

(1)配置文件hanlp.properties的做用是告訴HanLP數據包的位置,只需修改第一行爲data的父目錄便可:

root=D:/JavaProjects/HanLP/

好比data目錄是/Users/hankcs/Documents/data,那麼root=/Users/hankcs/Documents/ 。

(2)從python中啓動jvm以及添加jar包路徑

 

其中-Djava.class.path是用來添加jar包到classpath中,而後用startJVM來啓動jvm。

startJVM第一個參數是系統內的jvm位置,第二個爲*arg參數,此處放置classpath。

以上獲得的是java的ArrayList類型,須要將他裝換爲string類型:

結果以下:

4、最後記得關閉JVM

 

--------------------

做者:Juanly Jack

相關文章
相關標籤/搜索