ES中的分詞器

時間 2021-01-15

原文原文鏈接

一、概念介紹全文搜索引擎會用某種算法對要建索引的文檔進行分析，從文檔中提取出若干Token(詞元)，這些算法稱爲Tokenizer(分詞器)，這些Token會被進一步處理，比如轉成小寫等，這些處理算法被稱爲Token Filter(詞元處理器), 被處理後的結果被稱爲Term(詞)，文檔中包含了幾個這樣的Term被稱爲Frequency(詞頻)。引擎會建立Term和原文檔的

>>阅读原文<<