一、ik配置文件xml
ik配置文件地址:es/plugins/ik/config目錄索引
IKAnalyzer.cfg.xml:用來配置自定義詞庫
main.dic:ik原生內置的中文詞庫,總共有27萬多條,只要是這些單詞,都會被分在一塊兒
quantifier.dic:放了一些單位相關的詞
suffix.dic:放了一些後綴
surname.dic:中國的姓氏
stopword.dic:英文停用詞配置
ik原生最重要的兩個配置文件搜索
main.dic:包含了原生的中文詞語,會按照這個裏面的詞語去分詞
stopword.dic:包含了英文的停用詞plugin
停用詞,stopword配置文件
a the and at buttop
通常,像停用詞,會在分詞的時候,直接被幹掉,不會創建在倒排索引中word
二、自定義詞庫英文
(1)本身創建詞庫:每一年都會涌現一些特殊的流行詞,網紅,藍瘦香菇,喊麥,鬼畜,通常不會在ik的原生詞典裏dict
本身補充本身的最新的詞語,到ik的詞庫裏面去
IKAnalyzer.cfg.xml:ext_dict,custom/mydict.dic
補充本身的詞語,而後須要重啓es,才能生效
(2)本身創建停用詞庫:好比了,的,啥,麼,咱們可能並不想去創建索引,讓人家搜索
custom/ext_stopword.dic,已經有了經常使用的中文停用詞,能夠補充本身的停用詞,而後重啓es