PageRank算法與TextRank算法詳解

時間 2019-12-09

標籤 pagerank 算法 textrank 詳解简体版

原文原文鏈接

PageRank算法:

該算法本質上屬於有向帶權圖。
對於某個互聯網網頁A來講，該網頁PageRank的計算基於如下兩個基本假設：
- 數量假設：在Web圖模型中，若是一個頁面節點接收到的其餘網頁指向的入鏈數量越多，那麼這個頁面越重要。
- 質量假設：指向頁面A的入鏈質量不一樣，質量高的頁面會經過連接向其餘頁面傳遞更多的權重。因此越是質量高的頁面指向頁面A，則頁面A越重要。
迭代方法：
- map: 在一輪更新頁面PageRank得分的計算中，每一個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上，這樣每一個連接即得到了相應的權值。
- reduce: 而每一個頁面將全部指向本頁面的入鏈所傳入的權值求和，便可獲得新的PageRank得分。當每一個頁面都得到了更新後的PageRank值，就完成了一輪PageRank計算。
  - 個人理解是下一時刻PR值與前一時刻的PR值無直接關係，只取決於入度的權重。
阻尼係數：
- 因爲存在一些出鏈爲0，也就是那些不連接任何其餘網頁的網，也稱爲孤立網頁，使得不少網頁能被訪問到。所以須要對 PageRank公式進行修正，即在簡單公式的基礎上增長了阻尼係數\(q\)， \(q\)通常取值\(q=0.85\)。
- \(1-q= 0.15\)就是用戶中止點擊，隨機跳到新URL的機率
PageRank計算得出的結果是網頁的重要性評價，這和用戶輸入的查詢是沒有任何關係的，即算法是主題無關的。是一個與查詢無關的靜態算法，全部網頁的PageRank值經過離線計算得到；有效減小在線查詢時的計算量，極大下降了查詢響應時間。算法
缺點:網絡
- 人們的查詢具備主題特徵，PageRank忽略了主題相關性，致使結果的相關性和主題性下降。spa
- 舊的頁面等級會比新頁面高。由於即便是很是好的新頁面也不會有不少上游連接，除非它是某個站點的子站點。文檔