《推薦系統》閱讀筆記

時間 2019-11-09

標籤推薦系統閱讀筆記简体版

原文原文鏈接

蔣凡翻譯的這本：https://book.douban.com/subject/24746415/算法

1. 引言安全

協同過濾：適合有大量用戶的行爲信息庫的狀況網絡

- 若是用戶在過去有相同的偏好（瀏覽、買過相同的書），那麼他們在將來也會有類似的偏好框架

基於內容推薦：適合物品屬性易獲取、用戶量較少的狀況（用戶偏好也能獲取）學習

- 須要有物品的描述（好比書：體裁、主題、做者）網站

- 無需大規模用戶，有物品屬性便可推薦翻譯

基於知識推薦：適合沒法依賴用戶行爲記錄，能獲取物品專業特徵的方法排序

- 消費類電子產品：大量的單次購買者，沒法依賴購買記錄，可以獲取專業性的優質特徵遊戲

- 因果知識（好比數碼相機：分辨率、重量、價格）圖片

- 明確的約束條件描述場景、系統詢問用戶特徵的相對重要性

混合推薦

2. 協同過濾推薦

基於用戶的最近鄰推薦（user based，user cf）

- 對當前用戶沒見過的每一個產品p，利用其近鄰對p的評分計算預測值

- 用戶類似度計算：Pearson相關係數，考慮到了用戶評分標準不相同的事實

- 打壓熱門物品推薦：逆用戶頻率（iuf）

- 樣本擴展：強調接近+1和-1的值（好比*2.5）

- kNN：k=20~50

基於物品的最近鄰推薦（item based，item cf）

* Amazon用其推薦書、CD

大型電商網站：百萬計用戶，難以作到實時計算user cf的預測值

- 簡單地找到user對類似物品的評分

- 餘弦類似度方法比Pearson相關係數表現更好

- 近鄰數量受限於當前用戶評過度的物品個數

- 物品的類似度更穩定

獲取評分

- 收集顯式評分：來自種子用戶

- 數據稀疏、冷啓動：利用用戶畫像（性別、年齡、教育程度、興趣）

- 看作圖分析問題：考慮長度爲3的路徑，缺點是計算代價高

- 給缺乏評分的物品賦給缺省值

基於模型和預處理的方法

- 矩陣分解：MF、SVD、pLSA

- 關聯規則挖掘：Apriori（高支持度和可信度的規則），離線計算，熱門電影領域效果好

- 預測問題看做分類：NB、Laplace平滑

- 其餘：聚類（k-means）、BN

近期實際的方法

- 簡單的方法：SlopeOne，計算用戶在不一樣物品評分上的偏移量，結合當前用戶評分預測

- 更多數據支持的偏移量更大權重

- 推薦方法與已有方法效果至關

Google新聞個性化推薦引擎

- 基於活躍用戶的點擊歷史

- 更大社區歷史信息的協同

- 實時用戶反饋

- pLSI和MinHash，使用MapReduce計算，最後線性組合

- 候選集合：語言偏好、新聞時效性、用戶個性化設置、同類別其餘用戶的點擊歷史（熱度）

- 個性化方法明顯佔優（38%），除了極度熱門新聞

小結

- 沒有「銀彈」方法

3. 基於內容的推薦

- eg：書的種類、電影的演員表、文章關鍵詞

- 候選物品和用戶過去喜歡的物品的類似度（好比書的體裁、文章關鍵詞的Jaccard係數）

- 向量空間模型、tf-idf

- 刪除停用詞、精簡關鍵詞數量、用詞典刪除無關領域的詞、使用短語、關鍵詞上下文包含否認修飾

- 先使用短時間模型中的近鄰、不然使用長期模型

- 相關性反饋：正反饋更有價值

- 用idf衡量的前10~20個詞

- 多項式模型作文本分類比伯努利模型明顯好

- 決策樹學習器（ID三、C4.五、RF）在特徵較少時效果更好

- 特徵選擇：卡方檢驗（基於互信息，越高越相關）、Fisher判別

- 最重要因素是訓練集規模

- Bayes和Rocchio老是表現好、NB預測更快

- 侷限：缺乏新穎性，商業領域幾乎沒有僅基於內容的推薦系統，通常混合CF

4. 基於知識的推薦

- 識別評價範式：好比兆級像素、光學變焦、液晶顯示屏尺寸、錄像功能、價格

- 知識獲取：深刻的領域知識、推薦技術

5. 混合推薦

加權、交叉、切換

6-7. 推薦系統的解釋、評估

- 使用離線試驗評估

- 響應時間、可擴展性、峯值負載、可靠性

- 平均絕對偏差MAE、準確率召回率PR、F一、ROC

8. 案例分析：移動互聯網個性化遊戲推薦

好的經驗：

- 熱銷物品放在推薦列表中

- CF有助於銷售轉化率、多處展現位效果好

- 個性化方法更好（甚至是SlopeOne方法）

- 混合不一樣推薦方法有助更多瀏覽和銷售

- 購買完以後顯示熱銷效果差

- 用戶購買完後首先想看的是免費遊戲

- 不管是否個性化，圖片轉化率顯著高於文本連接

- 個性化相對非個性化策略優點高於更豐富的展現樣式

- 用戶喜歡新的物品或和歷史行爲類似的物品

- 推薦列表個性化技術顯然超過人工推薦

總體效果

- 瀏覽量：個性化算法賽過非個性化（熱銷）

- SlopeOne和簡單的基於用戶評分排序引發最多用戶關注，進而增長購買和下載

- 用戶傾向於購買與其偏好類似的物品

小結

- 用戶沒有強烈預期時：推薦沒見過的類別，CF方法較好

- 用戶有必定預期時：傾向於與偏好類似的物品

- 售後情形：不傾向與當前購買類似的物品

- 使用移動設備提交評分更慎重、參與積極性低

- 新物品嚴格按時間排列更好

- 基於內容和物品的方法明顯更好

9. 針對協同推薦系統的攻擊

反做弊

10. 在線消費決策

心理學：

- 環境效應：額外低質量物品加入展現會改變選擇機率、增長選擇信心和購買意願

- 首位/新近效應：位於列表首尾的位置比中部更容易被記住（好比網頁搜索）

- 框架效應：若是用戶不是特別在行，展現方式會影響用戶關注點和決策；「損失厭惡」心理

- 儘快決策：人們更喜歡預測並儘量少作信息搜索；進度提示

- 從衆：展現用戶評分很容易影響用戶信念

- 反饋：若反饋而改善推薦效果會更頻繁反饋

- 信任：交易安全性、保護隱私、平臺信譽、推薦效果（很是依賴UI：解釋、產品對比，算法：結果符合偏好），體如今用戶留存

- 文化差別：西方的我的主義和東方的集體主義

11. 推薦系統和下一代互聯網

考慮社交關係

重視深度用戶的評論

使用用戶評論和標籤

12. 普適環境中的推薦

上下文感知推薦（區分用戶短時間興趣）

- 你在哪裏、你和誰在一塊兒、附近有那些資源

- 物理上下文：位置、時間

- 環境上下文：天氣、光線、聲音強度

- 信息上下文：股票報價、體育比分

- 我的上下文：健康、心情、計劃、活動

- 社交上下文：團隊活動、社交活動、和誰在一間屋子裏

- 應用上下文：電子郵件、訪問站點

- 系統上下文：網絡連通情況、打印機狀態

應用領域

- 選擇餐館：我的偏好和就近程度加權

- 旅遊：天氣（時間、季節）、新聞、交通、導航（距離）、安全；大部分用戶但願自主決定考慮哪些因素

相關標籤/搜索