搜索引起的鏈接分析-計算網頁的重要性

1. 鏈接分析

搜索引擎在查找能夠滿足用戶請求的網頁時,主要考慮兩方面的因素:

網頁和查詢的相關性是用戶發出的查詢與網頁內容的內容相似性得分。

網頁的重要性:通過鏈接分析方法計算獲得的得分。

搜索引擎融合兩者,共同擬合出相似性評分函數,來對搜索結果進行排序。

常見的鏈接分析算法除了鼎鼎有名的PageRank,還有HITS、SALSA、Hilltop以及主題PageRank等等。需要重點理解的是PageRank和HITS,後面這些算法都是以它們爲基礎的。

絕大部分鏈接分析算法建立在兩個概念模型,它們是:

隨機遊走模型:針對瀏覽網頁用戶行爲建立的抽象概念模型,用戶上網過程中會不斷打開鏈接,在相互有鏈接指向的網頁之間跳轉,這是直接跳轉,如果某個頁面包含的所有鏈接用戶都不感興趣則可能會在瀏覽器中輸入另外的網址,這是遠程跳轉。該模型就是對一個直接跳轉和遠程跳轉兩種用戶瀏覽行爲進行抽象的概念模型;典型的使用該模型的算法是PageRank
子集傳播模型:基本思想是把互聯網網頁按照一定規則劃分,分爲兩個甚至是多個子集合。其中某個子集合具有特殊性質,很多算法從這個具有特殊性質的子集合出發,給予子集合內網頁初始權值,之後根據這個特殊子集合內網頁和其他網頁的鏈接關係,按照一定方式將權值傳遞到其他網頁。典型的使用該模型的算法有HITS和Hilltop算法

2. 鏈接分析算法之間的關係:


圖1 鏈接分析算法關係圖:

鏈接算法很多,但是從其概念模型來說,基本遵循上述小節介紹的隨機遊走模型和子集傳播模型。而從圖1中可看出,在衆多算法中,PageRank和HITS算法可以說是最重要的兩個具有代表性的鏈接分析算法,後續的很多鏈接分析算法都是在這兩個算法基礎上衍生出來的改進算法。