倒排索引學習

在搜索引擎中每一個文件都對應一個文件ID,文件內容被表示爲一系列關鍵詞的集合(實際上在搜索引擎索引庫中,關鍵詞也已經轉換爲關鍵詞ID)。例如「文檔1」通過分詞,提取了20個關鍵詞,每一個關鍵詞都會記錄它在文檔中的出現次數和出現位置。數組 獲得正向索引的結構以下:數據結構        「文檔1」的ID > 單詞1:出現次數,出現位置列表;單詞2:出現次數,出現位置列表;…………。函數      
相關文章
相關標籤/搜索