爲Elasticsearch添加中文分詞，對比分詞器效果

時間 2019-11-13

原文原文鏈接

lasticsearch中，內置了不少分詞器（analyzers），例如standard （標準分詞器）、english（英文分詞）和chinese （中文分詞）。其中standard 就是無腦的一個一個詞（漢字）切分，因此適用範圍廣，可是精準度低；english 對英文更加智能，能夠識別單數負數，大小寫，過濾stopwords（例如「the」這個詞）等；chinese 效果不好，後面會演示。此次主要玩這幾個內容：安裝中文分詞ik，對比不一樣分詞器的效果，得出一個較佳的配置。關於Elasticsearch，以前還寫過兩篇文章：Elasticsearch的安裝，運行和基本配置和備份和恢復，須要的能夠看下。html

安裝中文分詞ik

Elasticsearch的中文分詞很爛，因此咱們須要安裝ik。首先從github上下載項目，解壓：git

cd /tmp
wget https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zip
unzip master.zip
cd elasticsearch-analysis-ik/

而後使用mvn package 命令，編譯出jar包 elasticsearch-analysis-ik-1.4.0.jar。github

mvn package

將jar包複製到Elasticsearch的plugins/analysis-ik 目錄下，再把解壓出的ik目錄（配置和詞典等），複製到Elasticsearch的config 目錄下。而後編輯配置文件elasticsearch.yml ，在後面加一行：chrome

index.analysis.analyzer.ik.type : "ik"

重啓service elasticsearch restart 。搞定。api

若是上面的mvn搞不定的話，你能夠直接從 elasticsearch-rtf 項目中找到編譯好的jar包和配置文件（我就是怎麼幹的）。app

【2014-12-14晚更新，今天是星期天，我在vps上安裝ik分詞，一樣的步驟，老是提示MapperParsingException[Analyzer [ik] not found for field [cn]]，而後晚上跑到公司，發現我公司虛擬機上Elasticsearch的版本是1.3.2，vps上是1.3.4，猜是版本問題，直接把vps從新安裝成最新的1.4.1，再安裝ik，竟然ok了……】elasticsearch

準備工做：建立索引，錄入測試數據

先爲後面的分詞器效果對比作好準備，個人Elasticsearch部署在虛擬機 192.168.159.159:9200 上的，使用chrome的postman插件直接發http請求。第一步，建立index1 索引：post

PUT http://192.168.159.159:9200/index1
{
"settings": {
"refresh_interval": "5s",
"number_of_shards" : 1, // 一個主節點
"number_of_replicas" : 0 // 0個副本，後面能夠加
},
"mappings": {
"_default_":{
"_all": { "enabled": false } // 關閉_all字段，由於咱們只搜索title字段
},
"resource": {
"dynamic": false, // 關閉「動態修改索引」
"properties": {
"title": {
"type": "string",
"index": "analyzed",
"fields": {
"cn": {
"type": "string",
"analyzer": "ik"
},
"en": {
"type": "string",
"analyzer": "english"
}
}
}
}
}
}
}

爲了方便，這裏的index1 索引，只有一個shards，沒有副本。索引裏只有一個叫resource 的type，只有一個字段title ，這就足夠咱們用了。title 自己使用標準分詞器，title.cn 使用ik分詞器，title.en 自帶的英文分詞器。而後是用bulk api批量添加數據進去：測試

POST http://192.168.159.159:9200/_bulk
{ "create": { "_index": "index1", "_type": "resource", "_id": 1 } }
{ "title": "周星馳最新電影" }
{ "create": { "_index": "index1", "_type": "resource", "_id": 2 } }
{ "title": "周星馳最好看的新電影" }
{ "create": { "_index": "index1", "_type": "resource", "_id": 3 } }
{ "title": "周星馳最新電影，最好，新電影" }
{ "create": { "_index": "index1", "_type": "resource", "_id": 4 } }
{ "title": "最最最最好的新新新新電影" }
{ "create": { "_index": "index1", "_type": "resource", "_id": 5 } }
{ "title": "I'm not happy about the foxes" }