文本獲取和搜索引擎中的反饋模型

時間 2019-12-05

標籤文本獲取搜索引擎反饋模型欄目搜索引擎简体版

原文原文鏈接

coursera課程 text retrieval and search engine 第五週推薦。spa

反饋的基本類型

relevance Feedback:查詢結果返回後，有專門的人來識別那些信息是有用的，從而提升查詢的命中率，這種方式很可靠
implicit feedback:觀察有哪些返回結果是用戶點擊了的，有點擊的認爲是對用戶有用的，從而提升查詢準確率
persudo feedback：獲取返回結果的前k個值，認爲是好的查詢結果，而後加強查詢

Rocchio Feedback思想

對於VSM(vector space model)來講,想要提升查詢的準確度，須要把查詢向量作一個調整，跳到某個位置以提升精度，Rocchio即把向量移到全部向量的中心cdn

||取模表明向量的個數，另外通過移動以後，會有不少原來是0的變成有數據，一般採用的措施是保留高權重的blog

它能夠用在 relevance feedback和persudo feedback【relevance的beta要大於persudo】;在使用的時候注意不要過分依賴，仍是要以原始的查詢爲主，畢竟反饋只是一個小的樣本ci

Kullback-Leibler divergence Retrieval model[KL散度檢索模型]

kl做爲反饋運算來說，具體操做能夠是：首先提供一個預估要查詢的文檔集，以及查詢的關鍵字，分別計算出文檔和查詢的向量。計算出兩者的距離【基本和VSM一致】，經過這樣的方式，會獲得一個反饋的集合。這裏的關鍵在於從反饋集合中提取出一個查詢向量，經過如圖所示的方式添加到查詢向量中去【做爲反饋】，從而提供更好的查詢結果文檔

混合模型

全部的反饋結果集合都會來自於反饋模型，可是經過詞頻分析來講，排在最前面的通常都是經常使用的字段集合【the 等】，而這些加入反饋是很是不恰當的。經過加入另外的一個集合【背景文檔】，混合兩個模型，並經過幾率來選擇哪一個集合的結果，這個時候，全部的反饋文檔集合由混合模型來決定，那麼對於在背景文檔中不多的詞頻，可是在反饋文檔中很頻繁的，一定是來源於反饋文檔集合，背景文檔集合自己經過給the等詞添加很低的頻率，那麼就能夠篩選出反饋文集總太高的通用詞it