用戶行爲數據

用戶顯性反饋數據：顯性反饋行爲包括用戶明確表示對物品喜愛的行爲。主要方式就是評分和喜歡/不喜歡。
用戶隱性反饋數據：隱性反饋行爲指的是那些不能明確反應用戶喜愛的行爲。最具表明性的隱性反饋行爲就是頁面瀏覽行爲。

用戶活躍度和物品流行度：長尾分佈

通常來講，不活躍的用戶要麼是新用戶，要麼是隻來過網站一兩次的老用戶。那麼，不一樣活躍度的用戶喜歡的物品的流行度是否有差異？通常認爲，新用戶傾向於瀏覽熱門的物品，由於他們對網站還不熟悉，只能點擊首頁的熱門物品，而老用戶會逐漸開始瀏覽冷門的物品。

用戶行爲數據設計的推薦算法

基於鄰域的方法（neighborhood-based）
隱語義模型（latent factor model）
基於圖的隨機遊走算法（random walk on graph）

其中最主要的方法爲基於鄰域的算法：

基於用戶的協同過濾算法這種算法給用戶推薦和他興趣類似的其餘用戶喜歡的物品。
基於物品的協同過濾算法這種算法給用戶推薦和他以前喜歡的物品類似的物品。

基於用戶的協同過濾算法：

(1) 找到和目標用戶興趣類似的用戶集合。（類似性計算，基於距離）
(2) 找到這個集合中的用戶喜歡的，且目標用戶沒有據說過的物品推薦給目標用戶

改進 1：

若是對用戶兩兩計算類似度，複雜度太高O(n*n) ，所以能夠首先計算item-user的倒排表，而後計算用戶類似度，這樣能夠過濾掉共同物品爲0的用戶

改進 2：

考慮物品自己的流行度，

基於物品的協同過濾算法

(1) 計算物品之間的類似度。
(2) 根據物品的類似度和用戶的歷史行爲給用戶生成推薦列表。
共現的機率

改進 1 ：user-item倒排表

改進 2 用戶活躍度的影響

隱語義模型

隱語義模型是最近幾年推薦系統領域最爲熱門的研究話題，它的核心思想是經過隱含特徵(latent factor)聯繫用戶興趣和物品。

隱含語義分析技術從誕生到今天產生了不少著名的模型和方法，其中和該技術相關且耳熟能詳的名詞有pLSA、LDA、隱含類別模型（latent class model）、隱含主題模型（latent topic model）、矩陣分解（matrix factorization）。這些技術和方法在本質上是相通的，其中不少方法均可以用於個性化推薦系統。

隱性反饋數據中，沒有負樣本只有正樣本；在隱性反饋數據集上應用LFM解決TopN推薦的第一個關鍵問題就是如何給每一個用戶生成負樣本。

對於一個用戶，用他全部沒有過行爲的物品做爲負樣本。
對於一個用戶，從他沒有過行爲的物品中均勻採樣出一些物品做爲負樣本。
對於一個用戶，從他沒有過行爲的物品中採樣出一些物品做爲負樣本，但採樣時，保證每一個用戶的正負樣本數目至關。
對於一個用戶，從他沒有過行爲的物品中採樣出一些物品做爲負樣本，但採樣時，偏重採樣不熱門的物品。

對於第一種方法，它的明顯缺點是負樣本太多，正負樣本數目相差懸殊，於是計算複雜度很高，最終結果的精度也不好。對於另外3種方法，Rong Pan在文章中表示第三種好於第二種，而第二種好於第四種。

對每一個用戶，要保證正負樣本的平衡（數目類似）。
對每一個用戶採樣負樣本時，要選取那些很熱門，而用戶卻沒有行爲的物品。

LFM和基於鄰域的方法的比較

理論基礎 LFM具備比較好的理論基礎，它是一種學習方法，經過優化一個設定的指標創建最優的模型。基於鄰域的方法更多的是一種基於統計的方法，並無學習過程。
離線計算的空間複雜度：LFM大量節省了訓練過程當中的內存
離線計算的時間複雜度：在通常狀況下，LFM的時間複雜度要稍微高於UserCF和ItemCF，這主要是由於該算法須要屢次迭代。但整體上，這兩種算法在時間複雜度上沒有質的差異。
在線實時推薦： UserCF和ItemCF在線服務算法須要將相關表緩存在內存中，而後能夠在線進行實時的預測。
推薦解釋： ItemCF算法支持很好的推薦解釋，它能夠利用用戶的歷史行爲解釋推薦結果。但LFM沒法提供這樣的解釋，它計算出的隱類雖然在語義上確實表明了一類興趣和物品，卻很難用天然語言描述並生成解釋展示給用戶。