蔣凡翻譯的這本:https://book.douban.com/subject/24746415/算法
1. 引言安全
協同過濾:適合有大量用戶的行爲信息庫的狀況網絡
- 若是用戶在過去有相同的偏好(瀏覽、買過相同的書),那麼他們在將來也會有類似的偏好框架
基於內容推薦:適合物品屬性易獲取、用戶量較少的狀況(用戶偏好也能獲取)學習
- 須要有物品的描述(好比書:體裁、主題、做者)網站
- 無需大規模用戶,有物品屬性便可推薦翻譯
基於知識推薦:適合沒法依賴用戶行爲記錄,能獲取物品專業特徵的方法排序
- 消費類電子產品:大量的單次購買者,沒法依賴購買記錄,可以獲取專業性的優質特徵遊戲
- 因果知識(好比數碼相機:分辨率、重量、價格)圖片
- 明確的約束條件描述場景、系統詢問用戶特徵的相對重要性
混合推薦
2. 協同過濾推薦
基於用戶的最近鄰推薦(user based,user cf)
- 對當前用戶沒見過的每一個產品p,利用其近鄰對p的評分計算預測值
- 用戶類似度計算:Pearson相關係數,考慮到了用戶評分標準不相同的事實
- 打壓熱門物品推薦:逆用戶頻率(iuf)
- 樣本擴展:強調接近+1和-1的值(好比*2.5)
- kNN:k=20~50
基於物品的最近鄰推薦(item based,item cf)
* Amazon用其推薦書、CD
大型電商網站:百萬計用戶,難以作到實時計算user cf的預測值
- 簡單地找到user對類似物品的評分
- 餘弦類似度方法比Pearson相關係數表現更好
- 近鄰數量受限於當前用戶評過度的物品個數
- 物品的類似度更穩定
獲取評分
- 收集顯式評分:來自種子用戶
- 數據稀疏、冷啓動:利用用戶畫像(性別、年齡、教育程度、興趣)
- 看作圖分析問題:考慮長度爲3的路徑,缺點是計算代價高
- 給缺乏評分的物品賦給缺省值
基於模型和預處理的方法
- 矩陣分解:MF、SVD、pLSA
- 關聯規則挖掘:Apriori(高支持度和可信度的規則),離線計算,熱門電影領域效果好
- 預測問題看做分類:NB、Laplace平滑
- 其餘:聚類(k-means)、BN
近期實際的方法
- 簡單的方法:SlopeOne,計算用戶在不一樣物品評分上的偏移量,結合當前用戶評分預測
- 更多數據支持的偏移量更大權重
- 推薦方法與已有方法效果至關
Google新聞個性化推薦引擎
- 基於活躍用戶的點擊歷史
- 更大社區歷史信息的協同
- 實時用戶反饋
- pLSI和MinHash,使用MapReduce計算,最後線性組合
- 候選集合:語言偏好、新聞時效性、用戶個性化設置、同類別其餘用戶的點擊歷史(熱度)
- 個性化方法明顯佔優(38%),除了極度熱門新聞
小結
- 沒有「銀彈」方法
3. 基於內容的推薦
- eg:書的種類、電影的演員表、文章關鍵詞
- 候選物品和用戶過去喜歡的物品的類似度(好比書的體裁、文章關鍵詞的Jaccard係數)
- 向量空間模型、tf-idf
- 刪除停用詞、精簡關鍵詞數量、用詞典刪除無關領域的詞、使用短語、關鍵詞上下文包含否認修飾
- 先使用短時間模型中的近鄰、不然使用長期模型
- 相關性反饋:正反饋更有價值
- 用idf衡量的前10~20個詞
- 多項式模型作文本分類比伯努利模型明顯好
- 決策樹學習器(ID三、C4.五、RF)在特徵較少時效果更好
- 特徵選擇:卡方檢驗(基於互信息,越高越相關)、Fisher判別
- 最重要因素是訓練集規模
- Bayes和Rocchio老是表現好、NB預測更快
- 侷限:缺乏新穎性,商業領域幾乎沒有僅基於內容的推薦系統,通常混合CF
4. 基於知識的推薦
- 識別評價範式:好比兆級像素、光學變焦、液晶顯示屏尺寸、錄像功能、價格
- 知識獲取:深刻的領域知識、推薦技術
5. 混合推薦
加權、交叉、切換
6-7. 推薦系統的解釋、評估
- 使用離線試驗評估
- 響應時間、可擴展性、峯值負載、可靠性
- 平均絕對偏差MAE、準確率召回率PR、F一、ROC
8. 案例分析:移動互聯網個性化遊戲推薦
好的經驗:
- 熱銷物品放在推薦列表中
- CF有助於銷售轉化率、多處展現位效果好
- 個性化方法更好(甚至是SlopeOne方法)
- 混合不一樣推薦方法有助更多瀏覽和銷售
- 購買完以後顯示熱銷效果差
- 用戶購買完後首先想看的是免費遊戲
- 不管是否個性化,圖片轉化率顯著高於文本連接
- 個性化相對非個性化策略優點高於更豐富的展現樣式
- 用戶喜歡新的物品或和歷史行爲類似的物品
- 推薦列表個性化技術顯然超過人工推薦
總體效果
- 瀏覽量:個性化算法賽過非個性化(熱銷)
- SlopeOne和簡單的基於用戶評分排序引發最多用戶關注,進而增長購買和下載
- 用戶傾向於購買與其偏好類似的物品
小結
- 用戶沒有強烈預期時:推薦沒見過的類別,CF方法較好
- 用戶有必定預期時:傾向於與偏好類似的物品
- 售後情形:不傾向與當前購買類似的物品
- 使用移動設備提交評分更慎重、參與積極性低
- 新物品嚴格按時間排列更好
- 基於內容和物品的方法明顯更好
9. 針對協同推薦系統的攻擊
反做弊
10. 在線消費決策
心理學:
- 環境效應:額外低質量物品加入展現會改變選擇機率、增長選擇信心和購買意願
- 首位/新近效應:位於列表首尾的位置比中部更容易被記住(好比網頁搜索)
- 框架效應:若是用戶不是特別在行,展現方式會影響用戶關注點和決策;「損失厭惡」心理
- 儘快決策:人們更喜歡預測並儘量少作信息搜索;進度提示
- 從衆:展現用戶評分很容易影響用戶信念
- 反饋:若反饋而改善推薦效果會更頻繁反饋
- 信任:交易安全性、保護隱私、平臺信譽、推薦效果(很是依賴UI:解釋、產品對比,算法:結果符合偏好),體如今用戶留存
- 文化差別:西方的我的主義和東方的集體主義
11. 推薦系統和下一代互聯網
考慮社交關係
重視深度用戶的評論
使用用戶評論和標籤
12. 普適環境中的推薦
上下文感知推薦(區分用戶短時間興趣)
- 你在哪裏、你和誰在一塊兒、附近有那些資源
- 物理上下文:位置、時間
- 環境上下文:天氣、光線、聲音強度
- 信息上下文:股票報價、體育比分
- 我的上下文:健康、心情、計劃、活動
- 社交上下文:團隊活動、社交活動、和誰在一間屋子裏
- 應用上下文:電子郵件、訪問站點
- 系統上下文:網絡連通情況、打印機狀態
應用領域
- 選擇餐館:我的偏好和就近程度加權
- 旅遊:天氣(時間、季節)、新聞、交通、導航(距離)、安全;大部分用戶但願自主決定考慮哪些因素