基於hanlp的es分詞插件


摘要:elasticsearch是使用比較普遍的分佈式搜索引擎,es提供了一個的單字分詞工具,還有一個分詞插件ik使用比較普遍,hanlp是一個天然語言處理包,能更好的根據上下文的語義,人名,地名,組織機構名等來切分詞java

Elasticsearchgit

默認分詞 github

 圖1.jpg

輸出: jvm

 圖2.jpg

IK分詞 elasticsearch

圖3.jpg 


輸出: 分佈式

 圖4.jpg

hanlp分詞 ide

 圖5.jpg

輸出: 工具

 圖6.jpg

ik分詞沒有根據句子的含義來分詞,hanlp能根據語義正確的切分出詞測試

安裝步驟: 搜索引擎

一、進入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下載插件並解壓到es的plugins目錄下,修改analysis-hanlp目錄下的hanlp.properties文件,修改root的屬性,值爲analysis-hanlp下的data

目錄的地址

二、修改es config目錄下的jvm.options文件,最後一行添加

-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy

 

重啓es

GET /_analyze?analyzer=hanlp-index&pretty=true

{

「text」:」張柏芝士蛋糕店」

}

測試是否安裝成功

analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)

自定義詞典

修改plugins/analysis-hanlp/data/dictionary/custom下的 個人詞典.txt文件

格式聽從[單詞] [詞性A] [A的頻次]

修改完後刪除同目錄下的CustomDictionary.txt.bin文件

重啓es服務

---------------------

做者:pengcong90

相關文章
相關標籤/搜索