coursera課程 text retrieval and search engine 第五週 推薦。spa
對於VSM(vector space model)來講,想要提升查詢的準確度,須要把查詢向量作一個調整,跳到某個位置以提升精度,Rocchio即把向量移到全部向量的中心cdn
||取模表明向量的個數,另外通過移動以後,會有不少原來是0的變成有數據,一般採用的措施是保留高權重的blog
它能夠用在 relevance feedback和persudo feedback【relevance的beta要大於persudo】;在使用的時候注意不要過分依賴,仍是要以原始的查詢爲主,畢竟反饋只是一個小的樣本ci
kl做爲反饋運算來說,具體操做能夠是:首先提供一個預估要查詢的文檔集,以及查詢的關鍵字,分別計算出文檔和查詢的向量。計算出兩者的距離【基本和VSM一致】,經過這樣的方式,會獲得一個反饋的集合。這裏的關鍵在於從反饋集合中提取出一個查詢向量,經過如圖所示的方式添加到查詢向量中去【做爲反饋】,從而提供更好的查詢結果文檔
全部的反饋結果集合都會來自於反饋模型,可是經過詞頻分析來講,排在最前面的通常都是經常使用的字段集合【the 等】,而這些加入反饋是很是不恰當的。 經過加入另外的一個集合【背景文檔】,混合兩個模型,並經過幾率來選擇哪一個集合的結果,這個時候,全部的反饋文檔集合由混合模型來決定,那麼對於在背景文檔中不多的詞頻,可是在反饋文檔中很頻繁的,一定是來源於反饋文檔集合,背景文檔集合自己經過給the等詞添加很低的頻率,那麼就能夠篩選出反饋文集總太高的通用詞it
topic words表明反饋模型,假設有一個源頭來控制是取背景字段仍是反饋模型的字段,其選擇機率是lamda。這樣作到能夠控制究竟是選擇背景文集做爲 反饋仍是反饋模型。io