ElasticSearch(十八)初識分詞器

一、什麼是分詞器

做用:切分詞語,normalization(提高recall召回率),如給你一段句子,而後將這段句子拆分紅一個一個的單個的單詞,同時對每一個單詞進行normalization(時態轉換,單複數轉換),分詞器html

recall,召回率:搜索的時候,增長可以搜索到的結果的數量spa

3個功能:code

character filter:在一段文本進行分詞以前,先進行預處理,好比說最多見的就是,過濾html標籤(<span>hello<span> --> hello),& --> and(I&you --> I and you)
tokenizer:分詞,hello you and me --> hello, you, and, me
token filter:lowercase,stop word,synonymom,dogs --> dog,liked --> like,Tom --> tom,a/the/an --> 幹掉,mother --> mom,small --> little

一個分詞器,很重要,將一段文本進行各類處理,最後處理好的結果纔會拿去創建倒排索引orm

二、內置的一些分詞器

standard analyzer、simple analyzer、whitespace analyzer、language analyzer(特定的語言的分詞器,好比說,english,英語分詞器) htm

相關文章
相關標籤/搜索