推薦系統實踐(項亮)— 第1章 好的推薦系統

1.1 什麼是推薦系統算法

 (1)解決信息過載的三種方式:網絡

  1. 分類目錄(雅虎)
  2. 搜索引擎(谷歌):知足用戶有明確目的時的主動查找請求;
  3. 推薦系統:用戶沒有明確目的時幫助他們發現感興趣的內容。

(2)推薦系統能夠更好的發掘商品的長尾性能

  傳統2/8理論受到挑戰。互聯網條件下,因爲貨架成本極端低廉,電子商務網站每每能出售比傳統零售店更多種類的商品。與傳統零售業相比,電商的長尾商品數量極其龐大,這些長尾的總銷售額甚至能超過熱門商品。測試

  推薦系統經過發掘用戶的行爲,找到用戶的個性化需求,從而將長尾商品準確地推薦給須要它的用戶,幫助用戶發現那些他們感興趣但很難發現的商品。網站

  推薦算法的本質是經過必定的方式將用戶和物品聯繫起來,不一樣的推薦系統利用了不一樣的方式。搜索引擎

1.2 個性化推薦系統的應用spa

(1)推薦系統由前臺展現頁面、後臺的日誌系統以及推薦算法3部分構成 。設計

  • 電子商務
    • 主要應用有:
      1. 個性化商品推薦列表:基於物品,基於好友;
      2. 相關商品推薦列表(cross selling):使用了不一樣用戶行爲計算物品的相關性;
      3. 打包銷售:推薦一套商品,打包購買打折;
  • 電影和視頻網站:基於物品的推薦,推薦用戶喜歡的類似的電影。
  • 個性化音樂網絡電臺日誌

    • 個性化推薦成功應用的兩個因素視頻

      1. 存在信息過載
      2. 用戶大部分時候沒有明確需求

      個性化網絡電臺很是符合上訴兩項

    • 設計上不容許點歌,而是給用戶必定形式的反饋(喜歡、不喜歡、跳過),通過用戶必定時間的反饋,電臺就能夠從用戶的歷史行爲中習得用戶的興趣模型,從而使用戶的播放列表愈來愈符合用戶對歌曲的興趣。
    • Pandora 根據專家標註音樂基因計算歌曲類似度;Last.fm給用戶推薦和他有類似聽歌愛好的其餘用戶喜歡的歌曲,利用用戶行爲。
    • 音樂推薦的特色:物品空間大/種類多/不需全神貫注消費 / 物品重用率高 / 上下文相關(包括用戶當時的心情,好比沮喪的時候喜歡聽勵志的歌曲,和所處情境好比睡覺前喜歡聽輕音樂) / 次序比較重要 / 高度社會化 (分享本身喜歡的音樂)
  • 社交網絡
    • 主要應用:
      1. 利用用戶的社交網絡信息對用戶進行個性化的物品推薦
      2. 信息流的會話推薦(推薦評論、好友狀態等):儘可能看到熟悉好友的最新會話
      3. 給用戶推薦好友
  • 個性化閱讀

  個性化閱讀一樣符合前面提出的須要個性化推薦的兩個因素:用戶面臨信息過載的問題;用戶不少時候並無必須看某篇具體文章的需求,只是想了解該領域。

  新聞類的閱讀要有很強的時效性。

    • 用戶關注本身興趣的人,而後看關注用戶看的文章;

    • 收集用戶對文章的偏好,根據反饋數據不斷更新用戶個性化列表;
    • 根據用戶之間興趣類似度,給用戶推薦和他興趣類似的用戶喜歡的文章;
  • 基於位置的服務:上下文信息,位置和社交網絡的結合。
  • 個性化郵件:優先級收件箱,先瀏覽重要的,再瀏覽其餘。
  • 個性化廣告
    • 個性化廣告投放技術:
      1. 上下文廣告:經過分析用戶正在瀏覽的網頁內容,投放和網頁內容相關的廣告。表明系統是谷歌的Adsense。
      2. 搜索廣告:經過分析用戶在當前會話中的搜索記錄,判斷用戶的搜索目的,投放和用戶目的相關的廣告。
      3. 個性化展現廣告:根據用戶的興趣標籤,對不一樣用戶投放不一樣的展現廣告。

 1.3 推薦系統評測

  一個完整的推薦系統通常存在3個參與方:用戶、網站、內容提供方。要考慮三方面的利益。好的推薦系統準測用戶的行爲,且擴展用戶的視野,幫助用戶發現他們感興趣且不容易發現的東西;幫助商家將埋沒在長尾中的好商品推薦給可能對他感興趣的用戶;推薦系統自己收集反饋,完善推薦質量,增長交互,提升收入。

    • 推薦系統實驗方法:
      1. 離線實驗
      2. 用戶調查
      3. 在線 A/B test
    • 評測指標:
      1. 用戶滿意度
          能夠以問卷的形式;通常狀況下用點擊率、用戶停留時間和轉化率等指標度量用戶的滿意度。
      2. 預測準確率:在訓練集上創建用戶的行爲和興趣模型預測用戶在測試集上的行爲,並計算預測行爲和測試集上實際行爲的重合度做爲預測準確率。
        • 評分預測: RMSE / MAE
        • TopN 推薦:準確率 、召回率, 準確率、召回率曲線。
        • 推薦目的是找到用戶最有可能感興趣的電影,而不是預測用戶看了電影后會給怎樣的分數(就是有的電影用戶感興趣,但看了以後給的評分會低,這個也要推薦)。
      3. 覆蓋率
          • 描述一個推薦系統對物品長尾的發掘能力。覆蓋率有不一樣的定義方法,最簡單的定義爲推薦系統可以推薦出來的物品佔總物品集合的比例。
          • 覆蓋率是一個內容提供商會關心的指標,推薦系統不只有較高的用戶滿意度,還有較高覆蓋率。
          • 覆蓋率的其它定義: P27 
        • 推薦系統的馬太效應:推薦系統的初衷是但願消除馬太效應,使得各類物品都能被展現給對它們感興趣的某一類人羣。可使用基尼係數來判斷是否有明顯的馬太效應。
      4. 多樣性
          爲了知足用戶普遍的興趣,推薦列表須要可以覆蓋用戶不一樣的興趣領域。多樣性描述了推薦列表中物品兩兩之間的不類似性。
      5. 新穎性:但願在不犧牲準確率的前提下提升多樣性和新穎性。
      6. 驚喜度:與歷史興趣不類似,但用戶滿意
      7. 信任度
          提升推薦系統信任度的方式有增長推薦系統的透明度(提供推薦的解釋);考慮用戶的社交網絡信息,利用好友信息給用戶作推薦,而且用好友進行推薦解釋。
      8. 實時性:新聞,微博等。
      9. 健壯性
        • 反做弊
      10. 商業指標:給公司帶來盈利。
      11. 總結

        • 指標總結
    • 評測維度
        在推薦系統評測報告中包含不一樣維度下的系統評測指標,能幫咱們全面地瞭解推薦系統性能。
      • 用戶維度:主要包括用戶的人口統計學信息、活躍度以及是否是新用戶等。
      • 物品維度:包括物品的屬性信息、流行度、平均分以及是否是新加入的物品等。
      • 時間維度:包括季節,是工做日仍是週末,是白天仍是晚上等。
相關文章
相關標籤/搜索