最近在研究中文分詞及天然語言相關的內容,關注到JAVA環境下的HanLP,HanLP是一個致力於向生產環境普及NLP技術的開源Java工具包,支持中文分詞(N-最短路分詞、CRF分詞、索引分詞、用戶自定義詞典、詞性標註),命名實體識別(中國人名、音譯人名、日本人名、地名、實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析(MaxEnt依存句法分析、神經網絡依存句法分析)。python
因爲本身才疏學淺,對JAVA方面瞭解很少,因此打算在Python環%2, line 5, in <module>git
startJVM(getDefaultJVMPath())github
File 「C:\Python27\lib\site-packages\jpype\_core.py」, line 44, in startJVM網絡
_jpype.startup(jvm, tuple(args), True)jvm
RuntimeError: First paramter must be a string or unicode at src/native/python/jpype_module.cpp:31工具
頗有多是沒有配置JDK的環境變量或安裝的JDK的位數與Python的位數不一致。致使 getDefaultJVMPath() 方法返回的是 None。測試
下載HanLPspa
(1)你能夠直接下載Portable版的jar,零配置。code
(2)也能夠使用自定義的HanLP——HanLP由3部分組成:類庫hanlp.jar包、模型data包、配置文件hanlp.properties,請前往項目主頁下載最新版:github.com/hankcs/HanLP/releases。對於非portable版,下載後,你須要編輯配置文件第一行的root指向data的父目錄。blog
這裏,假設新建了一個目錄(假定爲C:\hanlp),把hanlp.jar和hanlp.properties(portable版的話,僅需一個hanlp-portable.jar)放進去。
Python調用
如下是個人測試:(使用的是Python,與Python3 相比多了 .toString() 這一操做)