摘要:elasticsearch是使用比較普遍的分佈式搜索引擎,es提供了一個的單字分詞工具,還有一個分詞插件ik使用比較普遍,hanlp是一個天然語言處理包,能更好的根據上下文的語義,人名,地名,組織機構名等來切分詞java
Elasticsearchgit
默認分詞 github
輸出: jvm
IK分詞 elasticsearch
輸出: 分佈式
hanlp分詞 ide
輸出: 工具
ik分詞沒有根據句子的含義來分詞,hanlp能根據語義正確的切分出詞測試
安裝步驟: 搜索引擎
一、進入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下載插件並解壓到es的plugins目錄下,修改analysis-hanlp目錄下的hanlp.properties文件,修改root的屬性,值爲analysis-hanlp下的data
目錄的地址
二、修改es config目錄下的jvm.options文件,最後一行添加
-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy
重啓es
GET /_analyze?analyzer=hanlp-index&pretty=true
{
「text」:」張柏芝士蛋糕店」
}
測試是否安裝成功
analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)
自定義詞典
修改plugins/analysis-hanlp/data/dictionary/custom下的 個人詞典.txt文件
格式聽從[單詞] [詞性A] [A的頻次]
修改完後刪除同目錄下的CustomDictionary.txt.bin文件
重啓es服務
---------------------
做者:pengcong90