ElasticSearch安裝ik分詞插件

時間 2019-11-06

原文原文鏈接

1、IK簡介java

IK Analyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始， IKAnalyzer已經推出了4個大版本。最初，它是以開源項目Luence爲應用主體的，結合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始，IK發展爲面向Java的公用分詞組件，獨立於Lucene項目，同時提供了對Lucene的默認優化實現。在2012版本中，IK實現了簡單的分詞歧義排除算法，標誌着IK分詞器從單純的詞典分詞向模擬語義分詞衍化。 git

IK Analyzer 2012特性:github

1.採用了特有的「正向迭代最細粒度切分算法「，支持細粒度和智能分詞兩種切分模式；算法

2.在系統環境：Core2 i7 3.4G雙核，4G內存，window 7 64位， Sun JDK 1.6_29 64位普通pc環境測試，IK2012具備160萬字/秒（3000KB/S）的高速處理能力。app

3.2012版本的智能分詞模式支持簡單的分詞排歧義處理和數量詞合併輸出。curl

4.採用了多子處理器分析模式，支持：英文字母、數字、中文詞彙等分詞處理，兼容韓文、日文字符elasticsearch

5.優化的詞典存儲，更小的內存佔用。支持用戶詞典擴展定義。特別的，在2012版本，詞典支持中文，英文，數字混合詞語。ide

2、安裝IK分詞插件工具

假設讀者已經安裝好ES，若是沒有的話，請參考ElasticSearch入門 —— 集羣搭建。安裝IK分詞須要的資源能夠從這裏下載，整個安裝過程須要三個步驟：測試

一、獲取分詞的依賴包

經過git clone https://github.com/medcl/elasticsearch-analysis-ik，下載分詞器源碼，而後進入下載目錄，執行命令：mvn clean package，打包生成elasticsearch-analysis-ik-1.2.5.jar。將這個jar拷貝到ES_HOME/plugins/analysis-ik目錄下面，若是沒有該目錄，則先建立該目錄。

二、ik目錄拷貝

將下載目錄中的ik目錄拷貝到ES_HOME/config目錄下面。

三、分詞器配置

打開ES_HOME/config/elasticsearch.yml文件，在文件最後加入以下內容：

index:
  analysis:                   
    analyzer:      
      ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider
      ik_max_word:
          type: ik
          use_smart: false
      ik_smart:
          type: ik
          use_smart: true
index.analysis.analyzer.default.type: ik

ok！插件安裝已經完成，請從新啓動ES，接下來測試ik分詞效果啦！

3、ik分詞測試

一、建立一個索引，名爲index。

curl -XPUT http://localhost:9200/index

二、爲索引index建立mapping。

curl -XPOST http://localhost:9200/index/fulltext/_mapping -d'
{
    "fulltext": {
             "_all": {
            "analyzer": "ik"
        },
        "properties": {
            "content": {
                "type" : "string",
                "boost" : 8.0,
                "term_vector" : "with_positions_offsets",
                "analyzer" : "ik",
                "include_in_all" : true
            }
        }
    }
}'

三、測試

curl 'http://localhost:9200/index/_analyze?analyzer=ik&pretty=true' -d '
{
"text":"世界如此之大"
}'

顯示結果以下：

{
  "tokens" : [ {
    "token" : "text",
    "start_offset" : 4,
    "end_offset" : 8,
    "type" : "ENGLISH",
    "position" : 1
  }, {
    "token" : "世界",
    "start_offset" : 11,
    "end_offset" : 13,
    "type" : "CN_WORD",
    "position" : 2
  }, {
    "token" : "如此",
    "start_offset" : 13,
    "end_offset" : 15,
    "type" : "CN_WORD",
    "position" : 3
  }, {
    "token" : "之大",
    "start_offset" : 15,
    "end_offset" : 17,
    "type" : "CN_WORD",
    "position" : 4
  } ]
}

參考資料

https://github.com/medcl/elasticsearch-analysis-ik

歡迎轉載，請註明出處：http://my.oschina.net/xiaohui249/blog/232784