Inverted Index(倒排索引)

傳統的正排索引指的是doc->word的映射,然而在實際工做中,僅僅只有正排索引是遠遠不夠的,好比我想知道某個word出如今那些doc當中,就須要遍歷全部的doc,這在實時性要求比較嚴的系統中是不能接受的。所以,就出現了倒排索引(inverted index ),詳細內容參見Wikipedia-Inverted index。本文主要講解的是如何使用Scala編寫Spark程序來實現倒排索引。htm
相關文章
相關標籤/搜索