PageRank算法

一、PageRank算法簡介(摘自《Spark快速大數據分析》)         PageRank是執行多次連接的一個迭代算法,因此它是RDD分區操作的一個很好的用例。算法會維護兩個數據集:一個由(pageID,linkList)的元素組成,包含每個頁面的相鄰頁面的列表;另一個由(pageID,rank)元素組成,包含每個頁面的當前排序值。它按如下步驟進行計算。 將每個頁面的排序值初始化爲1.0。
相關文章
相關標籤/搜索