文本獲取和搜索引擎之推薦系統

coursera課程 text retrieval and search engine 第六週 推薦。學習

推薦系統

推薦系統即把恰當的內容推送給用戶,相似於在一系列文檔中過濾出用戶想要的。通常有兩種方式:.net

  1. 看用戶喜歡什麼樣的東西,而後檢驗當前文檔是否和用戶喜歡的類似【content-based】;
  2. 看喜歡特定文檔的都是什麼樣的用戶,而後看當前用戶是否和他們同樣[collaborative]。
    傳統的基於內容推薦模型是:
    他存在以下問題:
  • 必須作一個yes/no的決策
  • 初始的數據不多,基本基於配置
  • 「學習」經過用戶的yes判斷,並且還要靠慢慢積累

經過向量模型能夠作以下改進3d

  1. 是它利用了TR已有的模型做爲相關性【分數】計算
  2. 對於初始的配置來說也能夠當作是一個向量用來和文檔作計算分數
  3. 經過閾值模型來作決定是否推送給用戶,並對過濾的結果經過效用模型來評估
  4. 用戶獲得的反饋以後反過來更新閾值學習和向量模型的學習系統

向量學習系統即調整向量自己的位置,和搜索相似cdn

閾值模型困難在於:能被用戶判斷的數據都是送給用戶的;開始的時候被標記的數據少;提供給用戶一些試點的數據,看用戶如何反應,太少了達不到效果,太多又會擔憂都是用戶用不到的數據blog

Beta-Gamma閾值學習

y軸是實際的做用(好比有點擊的),x軸是排序中的位置;排序

\theta_{zero}表示繼續調低閾值那麼推送過去的都是無效的;\theta_{optimal}表示閾值的上界,即只要大於這個閾值,基本都是有效的。它和\theta_{zero}之間還有可能存在必定的數據是有用。衡量真實的取值則能夠用\alpha來表示:文檔

\theta=\alpha*\theta_{zero}+(1-\alpha)*\theta_{optimal}

通常來講,更偏向於\theta_{zero},這樣獲得的數據顯得更全面。可是有時候不須要顯示這麼多,能夠經過訓練來達到另外一種取值方式it

當訓練的樣本數足夠的時候,認爲已經足夠了解用戶了,那麼 \alpha能夠取較小的值,不夠的時候,偏向於 \theta_{zero})便可;訓練樣本的權重則經過 \gamma來控制
相關文章
相關標籤/搜索