PageRank

PageRank html

1 概述 算法

PageRank算法在1998年4月舉行的第七屆國際萬維網大會上由Sergey Brin和Larry Page提出。PageRank是經過計算頁面連接的數量和質量來肯定網站重要性的粗略估計。算法創立之初的目的是應用在Google的搜索引擎中,對網站進行排名。 網絡

隨着國內外學者的深刻研究,PageRank算法被普遍應用於其餘方面,例如學術論文的重要性排名,學術論文的做者的重要性排排序(某位做者引用了其餘做者的文獻,則該做者認爲其餘做者是重要的),網絡爬蟲(利於PR值,決定某個URL,所須要排序的網頁數量和深度;重要性高的網頁抓取的網頁數量相對多一些,反正則少一點),關鍵詞與句子的抽取,隨後又出現了基於PageRank的Twitter用戶的影響力排名,基於PageRank的微博用戶影響力算法的研究,和一些其餘在PageRank算法基礎上進行改進的研究。因而可知PageRank在影響力排名方面的研究也十分熱門。 網站

2 核心思想 搜索引擎

PageRank是基於從許多優質的網頁連接過來的網頁,一定仍是優質網頁的思想創建的。其包括:鏈入連接數(即受歡迎的指標)、鏈入連接是否來自推薦度高的頁面、鏈入連接源頁面的連接數。 spa

3 簡單模型 htm

圖1 頁面集合 blog

如圖1所示,假設一個只有4個頁面組成的集合:A,B,C,D。若是全部頁面都鏈向A,那麼A的PR(PageRank)值將是B,C及D的和。 排序

可是,如圖1所示,B頁面也鏈接到C頁面,而且D頁面有有鏈接到A頁面。一個頁面的投票權重總和爲1。則根據圖1,A頁面的PR值爲: 索引

即獲得頁面A的PR值的計算公式

    其中L爲某一個頁面的鏈出數總和。

由此,能夠得出簡單的PageRank模型。

    把互聯網上的各個網頁之間的連接關係當作一個有向圖。建設瀏覽者瀏覽的下一個網頁連接來自於當前網頁。創建一個簡化模型:對於任意網頁Pi,它的PageRank值可表示爲以下:

:網頁i的PR值;

:網頁j的PR值;

:全部連接到網頁i的網頁集合;

:爲網頁j的對外連接數(出度);

3 隨機瀏覽模型

假定一個上網者從一個隨機頁面開始瀏覽,上網者不斷點擊當前網頁的瀏覽開始下一次瀏覽。可是,上網者因爲厭倦而開始隨機的點擊網頁。隨機上網方式更符合用戶的瀏覽行爲。避免了一個獨立網頁沒有鏈出轉態和整個網頁圖中的一組緊密連接成環的網頁沒有鏈出狀態的狀況,由此產生了隨機瀏覽模型的創建過程:

    網頁之間的連接關係能夠用鄰接矩陣表示,其公式以下:

:網頁中網頁的總數;

d:阻尼因子,一般設爲0.85,d即按照超連接進行瀏覽的機率;

1-d:隨機跳轉一個新頁面的機率;

:網頁的PR值;

:網頁的鏈出網頁數目;

一個網頁的PageRank是由其餘頁面的PageRank計算的。因爲PR=A*PR知足馬爾可夫鏈的性質,其中A是一個轉移機率矩陣,那麼經過迭代計算能夠獲得全部頁面的PageRank值。通過重複計算,這些頁面的PR值會趨於正常和穩定。

狀態轉移矩陣:

:頁面的i到頁面j有連接爲1,不然爲0;

:頁面j的鏈出總數;

根據馬爾可夫的遍歷性

能夠最終求出PR值,再歸一化,便獲得全部頁面的PR值。例如:經過計算獲得A的狀態轉移矩陣以下:

設各個頁面的PR值爲,根據公式得:

,結果計算獲得

4 總結

優勢:

(1)與查詢無關的靜態算法,全部網頁的PageRank值都是離線計算好的;

(2)有效的減小了在線查詢時的計算量,減小了查詢響應時間;

缺點:

過度的相信連接關係

(1)一些權威網站每每都是互不連接的,由於存在競爭關係;

(2)人們的查詢具備主題特徵,PageRank忽略了主題相關性,致使結果的相關性和主題相關性下降;

(3)舊的頁面等級比新的頁面等級高。

參考文獻:

 

[1] 孫紅,左騰. 基於PageRank的微博用戶影響力算法研究[J]. 計算機應用研究,2018,04:

[2] https://wenku.baidu.com/view/a58b3845b0717fd5370cdc5f.html

相關文章
相關標籤/搜索