Hanlp做爲一款重要的中文分詞工具,在GitHub的用戶量已經很是之高,應該能夠看得出來你們對於hanlp這款分詞工具仍是很承認的。本篇繼續分享一篇關於hanlp的使用實例即Python調用hanlp進行中文實體識別。html
想要在python中調用hanlp進行中文實體識別,Ubuntu 16.04的系統環境python
1.安裝jpype1,在cmd窗口輸入git
pip install jpype1github
2.下載hanlp的安裝包工具
在https://github.com/hankcs/HanLP/releases spa
(1)下載新的 hanlp-1.7.1-release.zip文件,裏面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties.net
(2)點擊data-for-1.7.1.zip下載。(底下第8條)htm
注:若是你在http://hanlp.linrunsoft.com/services.html點擊下載hanlp.jar,下載下來的是hanlp-1.2.8.jar。以後在使用過程當中可能會出現「字符類型對應表加載失敗」的錯誤,查看相應路徑下也沒有CharType.dat.yes文件。緣由多是hanlp-1.2.8版本太低,使用新版本應該不會出現這個問題。blog
3.新建一個文件夾Hanlp,放文件hanlp-1.7.1.jar和hanlp.properties文件ip
新建一個文件夾hanlp,放data-for-1.7.1.zip解壓後的文件
配置hanlp.properties中的第一行的root爲hanlp文件夾的位置,也就是data-for-1.7.1.zip解壓後的文件放的位置。
4.寫py文件調用hanlp進行中文分析。
用法可參考這個博客 blog.csdn.net/u011961856/article/details/77167546。
另,查看HanLP關於實體識別的文檔http://hanlp.linrunsoft.com/doc.html
裏面介紹說中文人名標註爲「nr」,地名標註爲「ns」,機構名標註爲「nt」,因此使用用法參考連接裏的NLPTokenizer.segment就能夠標註出中文句子中的人名,地名和機構名。
比較使用jieba進行詞性標註時,也能夠標註出中文句子中的人名,地名和機構名。jieba分詞的詞性說明: