搜索引擎的點擊日誌提供了不少有價值的query-doc相關性信息,可是這些信息是有偏的,由於對於用戶沒有點擊過的doc,咱們沒法肯定其是否真實地被用戶瀏覽過。即日誌中記錄的展示信息與實際的展示信息之間是存在必定的差距的,日誌中記錄的展示doc在實際上用戶並不必定真的看到,排序的位置對用戶是否看到 & 點擊也存在必定的影響。User Browsing Model(UBM) 便是在消除這些因素對CTR的影響,使得根據歷史信息獲得的CTR能更好的擬合doc原始的CTR。函數
User Browsing Model(UBM) 經過對用戶在搜索結果頁上的瀏覽行爲和點擊行爲做出必定的假設,來預估每一個doc被用戶瀏覽過的機率。具體的方法是,構建出(query-doc的展示CTR:Display CTR)與(query-doc的展示機率:Examination和 query-doc的真實CTR:Attractiveness)這兩者之間的關係,即Display CTR = Examination * Attractiveness。搜索引擎
在實際的使用中,User Browsing Model獲得的模型的參數,能夠有兩種使用方向:spa
1)doc的展示機率:Examination,能夠用於修正相應的doc的展示次數,進一步能夠修正統計CTR,以及修正CTR預估模型的目標。3d
2)doc的真實CTR:Attractiveness,能夠用於修正相應的doc的CTR數值,能夠做爲統計CTR來看待,也能夠做爲CTR預估模型的目標。日誌
考慮這樣的場景:當一個用戶輸入一個query後,搜索引擎返回給他一個搜索結果列表,用戶從第一個結果開始按照排序結果的順序進行瀏覽,對於每個位置的結果,用戶須要決定是否瀏覽這個結果,若是進行瀏覽行爲了以後,再根據這個結果是否相關(或者說對於用戶有吸引力)來決定是否進行點擊。因此,若是最後用戶對某個結果進行點擊了,說明:blog
1)用戶對該doc進行了「瀏覽」(Examination=1)排序
2)該doc與query「相關」(Attractiveness=1)索引
User Browsing Model中假設:io
1)是否相關的機率則是由query(q)與doc(u)決定。搜索
2)用戶是否瀏覽某個doc的機率與該doc的的位置r,以及距離上一次點擊的距離d有關(若是以前沒有過點擊行爲,則認爲是上一次點擊的位置爲0)。之因此考慮距離上一次點擊的距離,是基於這樣的假設:當用戶看到一大段不相關的結果列表時,更傾向於放棄此次搜索行爲。
所以,Attractiveness和Examination能夠定義以下:
那麼,一次點擊行爲序列則可使用聯合機率P(c,a,e|u,q,d,r)來表示:
爲了計算一個觀測組(c,u,q,d,r),則須要分別考慮點擊與否的狀況。
當c=1時,即當前發生一次點擊,咱們能夠以此推斷用戶對該doc進行了「瀏覽」(Examination=1),同時該doc與query「相關」(Attractiveness=1)。與此相反,若當前沒有發生點擊,則說明用戶對該doc沒有進行「瀏覽」(Examination=0),或者該doc與query「不相關」(Attractiveness=0),綜合來看,能夠表述爲:
爲了求得參數α和γ的值,可使用最大似然估計的方法,將觀測結果分爲兩個集合,分別爲點擊集合和未點擊集合 ,能夠獲得以下的似然函數:
其中,q表明query,u表明一個樣本id,r表明樣本排序的位置, 表明未點擊樣本的集合,d表明樣本排序與上一次點擊的距離,γ表明在位置r,距離d時被用戶看到的機率,α表示樣本被點擊的實際機率。
因爲獲得的似然函數是凸函數,所以可使用梯度降低的方式來進行求解,分別對兩個參數計算梯度:
使用隨機梯度降低的方法求解參數α和γ使得似然函數取得最大值: