Elasticsearch——IK分詞器自定義詞庫

時間 2021-01-14

原文原文鏈接

一、業務場景 Elasticsearch是一個基於Lucene的搜索服務器，其引入IK分詞器後，可以對中文進行分詞。IK分詞器分詞的原理是在源文件中收集了很多詞彙，僅在其中一個主要詞彙文件main.dic文件中就有27W的詞彙量。但是有的時候僅用分詞器本身提供的通用詞彙無法滿足自己的項目特定的業務需求，比如說我要以「最長的電影」這一歌名作爲搜索條件，所得到的結果如下圖所示。二、新建