elasticsearch插件之ik分詞器

時間 2019-12-09

標籤 elasticsearch 插件分詞器欄目日誌分析简体版

原文原文鏈接

ES默認對英文文本的分詞器支持較好，但和lucene同樣，若是須要對中文進行全文檢索，那麼須要使用中文分詞器，同lucene同樣，在使用中文全文檢索前，須要集成IK分詞器。java

能夠從GitHub上獲取：https://github.com/medcl/elasticsearch-analysis-ikgit

由於是源碼，咱們要用到maven對其進行打包，所以你須要安裝maven。github

環境：centos6.九、elasticsearsh5.6.五、java1.8centos

一、下載dom

在GitHub上獲取與easticsearch對應的ik分詞器版本。我下載的是elasticsearch-analysis-ik-5.6.5.zipelasticsearch

二、打包maven

在本地解壓，從dom窗口進入ik分詞器的解壓目錄，測試

執行maven打包命令:spa

mvn install

在解壓目錄找到target/releases/elasticsearch-analysis-ik-5.2.2.zip文件插件

三、上傳、解壓

將此文件用fit協議上傳到elasticsearch的插件目錄下（elasticsearch安裝目錄裏的plugins目錄）

解壓

unzip elasticsearch-analysis-ik-5.6.5.zip

重命名

mv elasticsearch ik

刪除壓縮包

rm -rf elasticsearch-analysis-ik-5.6.5.zip

四、重啓ES

五、測試分詞器

POST _analyze

{

"analyzer":"ik_smart",

"text":"中國駐洛杉磯領事館遭亞裔男子槍擊嫌犯已自首"

}

用kibana插件的測試效果以下：

說明成功啦！

注意：IK分詞器有兩種類型，分別是ik_smart分詞器和ik_max_word分詞器。

ik_smart: 會作最粗粒度的拆分，好比會將「中華人民共和國國歌」拆分爲「中華人民共和國,國歌」。

ik_max_word: 會將文本作最細粒度的拆分，好比會將「中華人民共和國國歌」拆分爲「中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌」，會窮盡各類可能的組合；

相關標籤/搜索

elasticsearch+ik

安裝IK分詞器

分詞器

elasticsearch+kibana+logstash+ik

elasticsearch+elasticsearch

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。