【Lucene】構建索引

  Lucene索引的過程是什麼? step1 收集待索引的原文檔 從數據庫、web等獲取原文檔。   step2 將原文檔交給分詞組件(Tokenizer) 此過程叫做Tokenize,得到的結果稱爲Token。   會做如下幾件事: 1.將文檔分成一個個獨立的單詞 2.去除標點 3.去除停詞(stopword)   step3 將得到的Token交給語言處理組件(Linguistic Proc
相關文章
相關標籤/搜索