Hadoop學習筆記(8)

倒排索引是文檔檢索系統中最常用數據結構。根據單詞反過來查在文檔中出現的頻率,而不是根據文檔來,所以稱倒排索引(Inverted Index)。結構如下: 這張索引表中, 每個單詞都對應着一系列的出現該單詞的文檔,權表示該單詞在該文檔中出現的次數。現在我們假定輸入的是以下的文件清單: T1 : hello world hello china T2 : hello hadoop T3 : bye wo
相關文章
相關標籤/搜索