PageRank算法與TextRank算法詳解

PageRank算法:

  • 該算法本質上屬於有向帶權圖。
  • 對於某個互聯網網頁A來講,該網頁PageRank的計算基於如下兩個基本假設:
    • 數量假設:在Web圖模型中,若是一個頁面節點接收到的其餘網頁指向的入鏈數量越多,那麼這個頁面越重要。
    • 質量假設:指向頁面A的入鏈質量不一樣,質量高的頁面會經過連接向其餘頁面傳遞更多的權重。因此越是質量高的頁面指向頁面A,則頁面A越重要。
  • 迭代方法:
    • map: 在一輪更新頁面PageRank得分的計算中,每一個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上,這樣每一個連接即得到了相應的權值。
    • reduce: 而每一個頁面將全部指向本頁面的入鏈所傳入的權值求和,便可獲得新的PageRank得分。當每一個頁面都得到了更新後的PageRank值,就完成了一輪PageRank計算。
      • 個人理解是下一時刻PR值與前一時刻的PR值無直接關係,只取決於入度的權重。
  • 阻尼係數:
    • 因爲存在一些出鏈爲0,也就是那些不連接任何其餘網頁的網, 也稱爲孤立網頁,使得不少網頁能被訪問到。所以須要對 PageRank公式進行修正,即在簡單公式的基礎上增長了阻尼係數\(q\)\(q\)通常取值\(q=0.85\)
    • \(1-q= 0.15\)就是用戶中止點擊,隨機跳到新URL的機率
  • PageRank計算得出的結果是網頁的重要性評價,這和用戶輸入的查詢是沒有任何關係的,即算法是主題無關的。是一個與查詢無關的靜態算法,全部網頁的PageRank值經過離線計算得到;有效減小在線查詢時的計算量,極大下降了查詢響應時間。算法

  • 缺點:網絡

    • 人們的查詢具備主題特徵,PageRank忽略了主題相關性,致使結果的相關性和主題性下降。spa

    • 舊的頁面等級會比新頁面高。由於即便是很是好的新頁面也不會有不少上游連接,除非它是某個站點的子站點。文檔

TextRank算法

  • 本質上屬於無向帶權圖。
  • 將有向圖算法改進爲無向圖算法,再也不區分結點的指向性,而只關注結點的鄰居結點及自己的連通度。
  • 具備較高權重的結點也被認爲與更多重要結點具備較高的連通度,能夠抽象爲網絡的「中心」,而在多文檔文摘中,中心結點表明包含重要信息的文摘句。
相關文章
相關標籤/搜索