《推薦系統》閱讀筆記

蔣凡翻譯的這本:https://book.douban.com/subject/24746415/算法

 

1. 引言安全

協同過濾:適合有大量用戶的行爲信息庫的狀況網絡

- 若是用戶在過去有相同的偏好(瀏覽、買過相同的書),那麼他們在將來也會有類似的偏好框架

基於內容推薦:適合物品屬性易獲取、用戶量較少的狀況(用戶偏好也能獲取)學習

- 須要有物品的描述(好比書:體裁、主題、做者)網站

- 無需大規模用戶,有物品屬性便可推薦翻譯

基於知識推薦:適合沒法依賴用戶行爲記錄,能獲取物品專業特徵的方法排序

- 消費類電子產品:大量的單次購買者,沒法依賴購買記錄,可以獲取專業性的優質特徵遊戲

- 因果知識(好比數碼相機:分辨率、重量、價格)圖片

- 明確的約束條件描述場景、系統詢問用戶特徵的相對重要性

混合推薦

 

2. 協同過濾推薦

基於用戶的最近鄰推薦(user based,user cf)

- 對當前用戶沒見過的每一個產品p,利用其近鄰對p的評分計算預測值

- 用戶類似度計算:Pearson相關係數,考慮到了用戶評分標準不相同的事實

- 打壓熱門物品推薦:逆用戶頻率(iuf)

- 樣本擴展:強調接近+1和-1的值(好比*2.5)

- kNN:k=20~50

基於物品的最近鄰推薦(item based,item cf)

* Amazon用其推薦書、CD

大型電商網站:百萬計用戶,難以作到實時計算user cf的預測值

- 簡單地找到user對類似物品的評分

- 餘弦類似度方法比Pearson相關係數表現更好

- 近鄰數量受限於當前用戶評過度的物品個數

- 物品的類似度更穩定

獲取評分

- 收集顯式評分:來自種子用戶

- 數據稀疏、冷啓動:利用用戶畫像(性別、年齡、教育程度、興趣)

- 看作圖分析問題:考慮長度爲3的路徑,缺點是計算代價高

- 給缺乏評分的物品賦給缺省值

基於模型和預處理的方法

- 矩陣分解:MF、SVD、pLSA

- 關聯規則挖掘:Apriori(高支持度和可信度的規則),離線計算,熱門電影領域效果好

- 預測問題看做分類:NB、Laplace平滑

- 其餘:聚類(k-means)、BN

近期實際的方法

- 簡單的方法:SlopeOne,計算用戶在不一樣物品評分上的偏移量,結合當前用戶評分預測

- 更多數據支持的偏移量更大權重

- 推薦方法與已有方法效果至關

Google新聞個性化推薦引擎

- 基於活躍用戶的點擊歷史

- 更大社區歷史信息的協同

- 實時用戶反饋

- pLSI和MinHash,使用MapReduce計算,最後線性組合

- 候選集合:語言偏好、新聞時效性、用戶個性化設置、同類別其餘用戶的點擊歷史(熱度)

- 個性化方法明顯佔優(38%),除了極度熱門新聞

小結

- 沒有「銀彈」方法

 

3. 基於內容的推薦

- eg:書的種類、電影的演員表、文章關鍵詞

- 候選物品和用戶過去喜歡的物品的類似度(好比書的體裁、文章關鍵詞的Jaccard係數)

- 向量空間模型、tf-idf

- 刪除停用詞、精簡關鍵詞數量、用詞典刪除無關領域的詞、使用短語、關鍵詞上下文包含否認修飾

- 先使用短時間模型中的近鄰、不然使用長期模型

- 相關性反饋:正反饋更有價值

- 用idf衡量的前10~20個詞

- 多項式模型作文本分類比伯努利模型明顯好

- 決策樹學習器(ID三、C4.五、RF)在特徵較少時效果更好

- 特徵選擇:卡方檢驗(基於互信息,越高越相關)、Fisher判別

- 最重要因素是訓練集規模

- Bayes和Rocchio老是表現好、NB預測更快

- 侷限:缺乏新穎性,商業領域幾乎沒有僅基於內容的推薦系統,通常混合CF

 

4. 基於知識的推薦

- 識別評價範式:好比兆級像素、光學變焦、液晶顯示屏尺寸、錄像功能、價格

- 知識獲取:深刻的領域知識、推薦技術

 

5. 混合推薦

加權、交叉、切換

 

6-7. 推薦系統的解釋、評估

- 使用離線試驗評估

- 響應時間、可擴展性、峯值負載、可靠性

- 平均絕對偏差MAE、準確率召回率PR、F一、ROC

 

8. 案例分析:移動互聯網個性化遊戲推薦

好的經驗:

- 熱銷物品放在推薦列表中

- CF有助於銷售轉化率、多處展現位效果好

- 個性化方法更好(甚至是SlopeOne方法)

- 混合不一樣推薦方法有助更多瀏覽和銷售

- 購買完以後顯示熱銷效果差

- 用戶購買完後首先想看的是免費遊戲

- 不管是否個性化,圖片轉化率顯著高於文本連接

- 個性化相對非個性化策略優點高於更豐富的展現樣式

- 用戶喜歡新的物品或和歷史行爲類似的物品

- 推薦列表個性化技術顯然超過人工推薦

總體效果

- 瀏覽量:個性化算法賽過非個性化(熱銷)

- SlopeOne和簡單的基於用戶評分排序引發最多用戶關注,進而增長購買和下載

- 用戶傾向於購買與其偏好類似的物品

小結

- 用戶沒有強烈預期時:推薦沒見過的類別,CF方法較好

- 用戶有必定預期時:傾向於與偏好類似的物品

- 售後情形:不傾向與當前購買類似的物品

- 使用移動設備提交評分更慎重、參與積極性低

- 新物品嚴格按時間排列更好

- 基於內容和物品的方法明顯更好

 

9. 針對協同推薦系統的攻擊

反做弊

 

10. 在線消費決策

心理學:

- 環境效應:額外低質量物品加入展現會改變選擇機率、增長選擇信心和購買意願

- 首位/新近效應:位於列表首尾的位置比中部更容易被記住(好比網頁搜索)

- 框架效應:若是用戶不是特別在行,展現方式會影響用戶關注點和決策;「損失厭惡」心理

- 儘快決策:人們更喜歡預測並儘量少作信息搜索;進度提示

- 從衆:展現用戶評分很容易影響用戶信念

- 反饋:若反饋而改善推薦效果會更頻繁反饋

- 信任:交易安全性、保護隱私、平臺信譽、推薦效果(很是依賴UI:解釋、產品對比,算法:結果符合偏好),體如今用戶留存

- 文化差別:西方的我的主義和東方的集體主義

 

11. 推薦系統和下一代互聯網

考慮社交關係

重視深度用戶的評論

使用用戶評論和標籤

 

12. 普適環境中的推薦

上下文感知推薦(區分用戶短時間興趣)

- 你在哪裏、你和誰在一塊兒、附近有那些資源

- 物理上下文:位置、時間

- 環境上下文:天氣、光線、聲音強度

- 信息上下文:股票報價、體育比分

- 我的上下文:健康、心情、計劃、活動

- 社交上下文:團隊活動、社交活動、和誰在一間屋子裏

- 應用上下文:電子郵件、訪問站點

- 系統上下文:網絡連通情況、打印機狀態

應用領域

- 選擇餐館:我的偏好和就近程度加權

- 旅遊:天氣(時間、季節)、新聞、交通、導航(距離)、安全;大部分用戶但願自主決定考慮哪些因素

相關文章
相關標籤/搜索