IK中文分詞_IK分詞器配置文件講解以及自定義詞庫

一、ik配置文件xml

ik配置文件地址:es/plugins/ik/config目錄索引

IKAnalyzer.cfg.xml:用來配置自定義詞庫
main.dic:ik原生內置的中文詞庫,總共有27萬多條,只要是這些單詞,都會被分在一塊兒
quantifier.dic:放了一些單位相關的詞
suffix.dic:放了一些後綴
surname.dic:中國的姓氏
stopword.dic:英文停用詞配置

ik原生最重要的兩個配置文件搜索

main.dic:包含了原生的中文詞語,會按照這個裏面的詞語去分詞
stopword.dic:包含了英文的停用詞plugin

停用詞,stopword配置文件

a the and at buttop

通常,像停用詞,會在分詞的時候,直接被幹掉,不會創建在倒排索引中word

二、自定義詞庫英文

(1)本身創建詞庫:每一年都會涌現一些特殊的流行詞,網紅,藍瘦香菇,喊麥,鬼畜,通常不會在ik的原生詞典裏dict

本身補充本身的最新的詞語,到ik的詞庫裏面去

IKAnalyzer.cfg.xml:ext_dict,custom/mydict.dic

補充本身的詞語,而後須要重啓es,才能生效

(2)本身創建停用詞庫:好比了,的,啥,麼,咱們可能並不想去創建索引,讓人家搜索

custom/ext_stopword.dic,已經有了經常使用的中文停用詞,能夠補充本身的停用詞,而後重啓es

相關文章
相關標籤/搜索