論文--Topic-Sensitive PageRank

背景

  • 原有的PageRank方法:經過web上連接結構信息獲得頁面之間相對的重要性,和特定的查詢內容無關

論文涉及到的其餘算法

  1. HITS
  2. Hilltop,處理常見的流行查詢 popular query
  3. 基本的PageRank算法,咱們使用以下迭代來計算ranks得分$$\forall{v}Rank_{i+1}(v)=\sum_{u\in{B_{v}}}Rank_i(u)/N_u$$直到rank向量達到一個穩定的閾值

論文關注點

  • 選取與查詢相關的多個話題的PageRank向量集合,經過計算獲得一個更精確的與特定話題相關的查詢結果,每次都給各個頁面賦予一個和此特定話題相關的得分
  • 新方法保證了基於連接的評分與查詢掛鉤,而且有較小的實時查詢處理時間
  • 利用Open Directory和一元語言模型來對話題進行表示
  • 咱們能夠從各個維度來獲得某個用戶某個查詢q的context,譬如說查詢歷史記錄,層次目錄結構,用戶保持的書籤等。

論文研究方法

概要:每一個頁面都有一個得分的集合,針對每個特定的topic
步驟:
  1. 找到一系列基本的topic集合,計算出一系列的PageRank Vectors。基本的類集合是從ODP數據集中獲得。
  2. 第二步是在查詢時進行的。 1). 首先肯定查詢q的上下文q'(分爲兩種狀況); 2). 計算獲得每個類在q'下的條件機率$$P(c_j|q')$$(利用貝葉斯公式);在使用$$P(c_j)$$時能夠根據用戶而決定特定的值 3). 對於每一個文檔d,咱們能夠計算他的query-sensitive得分 $$s_{qd}=\sum_jP(c_j|q')\cdot{rank_{jd}}$$

實驗結果


數據來源:the latest Web crawl from the Stanford WebBase, 2001

4.1 Similarity Measure for Induced Rankings

評價指標:$$OSim(\tau_1,\tau_2)$$,衡量兩個方法之間的URLs的重複的多少 Kendall's $$\tau$$ distance measure: is the probability that $\tau_1'$$ and $\tau_2'$$ agree on the relative ordering of a randomly selected pair of distinct nodes $$(u,v)\in{U\times{U}}$$

4.2 Effect of ODP-Biasing

研究了主題的選擇以及bias factor $\alpha$ 對rankings的影響 1. $\alpha$的選擇對評分的結果不是很sensitive 2. 應用不一樣的topically-biased PageRank vectors到同一個查詢,結果相差較大

4.3 Query-Sensitive Scoring

咱們研究瞭如何高效的利用PageRank Vectors來提升ranking precision 對於每一個方法採起Top10個結果,並組織5個志願者人工斷定,結果代表topic-sensitive PageRank方法的結果比原有的PageRank方法好不少

4.4 Context-Sensitive Scoring

經過query term的上下文來決定使用的topic PageRank vector 基於context的查詢方法有更好的返回結果,返回內容大都跟query term的具體意義相關

將來計劃

提升改進頁面和話題之間權重得分的計算方法,分別在獨立的或者同IR評分結合的兩個角度進行評價  
相關文章
相關標籤/搜索