12、學習Lucene3.5索引之分詞原理解析

1.分詞基本流程解析 2.Tokenizer分類(Tokenizer:主要負責接收字符流Reader,將Reader進行分詞操作) 3.TokenFilter分類(將分好詞的語彙單元,進行各種各樣的過濾) 4.TokenStream中需要保存的數據(TokenStream:分詞器做好處理之後得到的一個流,這個流中存儲了分詞的各種信息,可以通過TokenStream有效的獲取分詞單元)
相關文章
相關標籤/搜索