推薦系統中的矩陣分解技術

本文翻譯自Koren Y, Bell R, Volinsky C. Matrix Factorization Techniques for Recommender
Systems[J]. Computer, 2009, 42(8) : 30 – 37.

現代消費者被大量的選擇所淹沒。電子零售商和內容提供商提供了大量的產品選擇，以前所未有的機會來滿足各種特殊的需求和口味。給用戶推薦最合適的產品是提高用戶滿意度和忠誠度的關鍵。因此，越來越多的零售商開始對推薦系統感興趣，這些推薦系統分析用戶對產品的興趣模式，提供適合用戶喜好的個性化推薦。由於良好的個性化建議可以爲用戶體驗增添另一個層面，電子商務領袖如Amazon.com和Netflix已經將推薦系統作爲其網站的一個顯著部分。

這種系統對娛樂產品如電影，音樂和電視節目特別有用。許多客戶會看相同的電影，每個客戶可能會看到許多不同的電影。客戶願意表明他們對特定電影的滿意程度，因此可以獲得關於哪些電影吸引哪些客戶的大量數據。公司可以分析這些數據，向特定的客戶推薦電影。

矩陣因式分解方法

一些最成功的潛在因子模型的實現是基於矩陣分解的。在其基本形式中，矩陣分解通過從項目評分模式推斷的因素（factor）向量來表徵項目和用戶。項目與用戶因素之間的高度對應導致推薦。近幾年來，這些方法通過結合良好的可擴展性和預測準確性而變得流行起來。另外，它們爲建模各種現實生活情況提供了很大的靈活性。

推薦系統依賴於不同類型的輸入數據，這些輸入數據通常放置在矩陣中，其中一維代表用戶，而另一維代表感興趣的項目。最方便的數據是高質量的顯式反饋，其中包括用戶對產品興趣的明確輸入。例如，Netflix收集電影的星級，而TiVo用戶通過按下大拇指和大拇指按鈕來指示他們對電視節目的偏好。我們將明確的用戶反饋稱爲評分。通常，顯式反饋包含一個稀疏矩陣，因爲任何單個用戶可能只有一小部分可能的項目。

矩陣分解的一個優點是它允許併入額外的信息。當顯式反饋不可用時，推薦系統可以使用隱式反饋來推斷用戶偏好，其通過觀察用戶行爲（包括購買歷史，瀏覽歷史，搜索模式甚至鼠標移動）來間接反映意見。 隱式反饋通常表示事件的存在或不存在，所以它通常由密集填充的矩陣表示。

一個基本的矩陣分解模型

矩陣分解模型將用戶和項目映射到維度 f 的聯合潛在因子空間(latent factor space)，使得用戶項目交互被建模爲該空間中的內部產品。於是，每個item i 和向量 qi∈Rf 關聯；每個user u 和向量 pu∈Rf 相關聯。對於一個給定的item i ，向量 qi 的每個元素衡量了該項目擁有factor的程度，正的或負的。對於給定的用戶u， pu 的元素衡量用戶對相應factor較高的項目的興趣程度，同理，也是正的或負的。二者結果的點積 qTipu 捕獲了用戶 u 和項目 i 之間的交互——用戶對項目特徵的總體興趣。這是用戶u對物品i的近似評分，評分用 rui 來表示。所以有：

r^u i = q T i p u (1)

主要的難點在於如何把用戶和物品映射到向量空間。當映射完成後，顯然可以很容易的用公式(1)估計用戶對任何物品的評分。

這種模型與奇異值分解 (SVD) 密切相關, 是識別信息檢索中潛在語義因素的一種行之有效的方法。在協同過濾域中應用 SVD 需要分解用戶——物品的評分矩陣。由於大量的的數據缺失，即稀疏性，這通常很困難。當關於矩陣的知識不完備時, 傳統的 SVD 是未定義的。而且，不經意地只處理相對較少的已知條目是非常容易過度擬合（overfitting）的。

較早的系統依靠填補缺失的評分並使得評級矩陣密集。然而，填補可能非常昂貴，因爲它顯着增加了數據量。此外，不準確的填補可能會大大扭曲數據。因此，最近的工作建議直接對觀察到的評分進行建模，同時通過正規化模型避免過度擬合。爲了學習因子向量 pu 和 qi ，系統在已知評分數據集上最小化了正規化的平方誤差：

min q *, p * \sum (u, i) \in κ (r u i - q T i p u) 2 + λ (∥ q i ∥ 2 + ∥ p u ∥ 2) (2)

這裏， κ 是對於任何已知的 rui， (u,i)對的集合。

系統通過擬合先前觀察到的評分來學習模型。然而，我們的目標是以預測未來，未知評分的方式推廣以前的評分。因此，系統應該通過正規化學習的參數來避免過度擬合觀察到的數據，這些參數的大小受到懲罰。常量 λ 控制了正規化的程度，它通常通過交叉驗證(cross-validation)確定。Ruslan Salakhutdinov和Andriy Mnih的「概率矩陣分解」爲正則化提供了概率基礎。

學習算法

兩個最小化公式（2）的方法是隨機梯度下降和交替最小二乘（ALS）。

隨機梯度下降

Simon Funk普及了隨機梯度下降公式 (2) 的優化，其中該算法循環遍歷訓練集合中的所有評級。對於每個給定的訓練樣本，系統預測 rui 以及計算相關的預測誤差 eui 。

e u i = r u i - q T i p u

然後它在與梯度相反的方向上以與 γ 成比例的大小修改參數。

q i \leftarrow q i + γ (e u i \cdot p u - λ \cdot q i) p u \leftarrow p u + γ (e u i \cdot q i - λ \cdot p u)

這種流行的方法結合了實現的簡單性和相對較快的運行時間。然而，在某些情況下，使用ALS優化是有益的。

交叉最小二乘

因爲 qi 和 pu 都是未知的，所以公式（2）不是凸的。但是，如果我們固定其中一個未知數，則優化問題變爲二次，並且可以最優地解決。因此，ALS技術在固定 qi 和固定 pu 之間輪換。當所有的 pu 都固定時，系統通過求解最小二乘問題來重新計算 qi ，反之亦然。這確保每個步驟減少公式（2）直到收斂。

雖然隨機梯度下降比ALS更容易和更快，但ALS至少有兩種情況是有利的。首先是系統可以使用並行化。在ALS中，系統獨立於其他項目因素計算每個 qi ，並獨立於其他用戶因素計算每個 pu 。這導致了算法的潛在的大規模並行化。第二種情況是以隱式數據爲中心的系統。由於訓練集不能被認爲是稀疏的，因此循環遍歷每個單獨的訓練案例（如梯度下降）並不實際。 ALS可以有效地處理這種情況。

增加偏置

矩陣分解方法對於協同過濾的一個好處是它在處理各種數據方面和其他應用特定需求方面的靈活性。這需要在公式（1）中適應，同時保持在相同的學習框架內。公式（1）嘗試捕獲產生不同評級值的用戶和項目之間的交互。然而，觀察到的評分值的變化大部分是由於與用戶或項目相關的影響，稱爲偏差或截距，與任何相互作用無關。例如，典型的協作過濾數據對於一些用戶來說顯示出較大的系統傾向，以給予比其他用戶更高的評價，並且對於一些項目來說，獲得比其他評價更高的評價畢竟，有些產品被普遍認爲比其他產品更好（或更差）。

因此，直接用 qTipu 計算評分是極不明智的。相反，系統試圖識別單個用戶或項目偏差可以解釋的這些值的部分，僅將數據的真實交互部分進行因子建模。偏置的一階近似爲：

b u i = μ + b i + b u (3)

這個偏置 bui 包含在 rui 中，被解釋爲用戶和物品的影響。 μ 表示總體評分的平均值，參數 bi,bu 分別表示對於物品和用戶來說，觀察到的偏差平均值。例如，假設您想要對用戶Joe對電影《泰坦尼克號》的評價進行一階估計。現在，所有電影的平均評分μ是3.7星。此外，《泰坦尼克號》比普通電影要好，所以它的評分往往比平均值高出0.5星。另一方面，Joe是一個關鍵用戶，他傾向於評價比平均值低0.3顆星。因此，喬對泰坦尼克號的評價估計是3.9星（3.7 + 0.5 - 0.3）。

偏置拓展了公式（1），得到公式（4）：

r^u i = μ + b i + b u + q T i p u (4)

在這裏，觀察到的評分被分解爲四個部分：總分平均，項目偏差，用戶偏好和用戶項目交互。這允許每個組件僅解釋與其相關的信息的一部分。系統通過最小化平方誤差來學習：

min p *, q *, b * \sum (u, i) \in κ (r u i - μ - b u - b i - p T u q i) 2 + λ (∥ p u ∥ 2 + ∥ q i ∥ 2 + b 2 u + b 2 i) (5)

由於偏差傾向於捕獲大部分觀測信號，所以它們的準確建模是至關重要的。因此，其他文獻提供更精細的偏見模型。

額外的輸入源

通常系統都會面臨冷啓動的問題，用戶提供很少的信息，很難了解用戶口味來給他推薦。解決這個問題的一個辦法是整合更多關於用戶的信息來源。推薦系統可以使用隱式反饋來深入瞭解用戶的偏好。事實上，無論用戶是否提供明確的評級，他們都可以收集行爲信息。零售商可以使用客戶的購買或瀏覽歷史來了解他們的趨勢，以及客戶可能提供的評級。

爲了簡單起見，考慮具有布爾隱式反饋的情況。 N(u) 表示用戶u隱式偏好的項目集合。通過這種方式，系統可以通過他們隱式的偏好對用戶進行刻畫。這裏，引出物品特徵因子的一個新集合，其中，物品i關聯到向量 xi∈Rf 。因此，對 N(u) 中的項目表現出偏好的用戶的特徵被矢量 ∑i∈N(u)xi 描述。

歸一化通常是有利的，即

| N (u) | - 0.5 \sum i \in N (u) x i

另一個信息源是已知的用戶屬性，例如人口統計。同樣，爲了簡單考慮布爾屬性，其中用戶u對應於屬性集合 A(u) ，其可以描述性別，年齡組，郵編，收入水平等等。唯一的因子向量 yα∈Rf 元素對應了每個屬性，通過一個用戶相關的屬性集合刻畫了用戶特徵：

\sum α \in A (u) y α

矩陣分解模型應整合所有信息源，並增強用戶表示:

r^u i = μ + b i + b u + q T i [p u + | N (u) | - 0.5 \sum i \in N (u) x i + \sum α \in A (u) y α] (6)

雖然前面的例子涉及增強用戶表示（缺少數據很常見），但在必要時，物品可以得到類似的處理。

時間動態

到目前爲止，所提出的模型是靜態的。實際上，隨着新的選擇的出現，產品的感知和受歡迎程度也在不斷變化。同樣，顧客的傾向也在發展，導致他們重新定義自己的品味。因此，系統應考慮時間效應，反映在用戶項目交互的動態性和時間漂移性。

矩陣分解方法非常適合對時間效應進行建模，這可以顯着提高準確性。將評分分解爲不同的術語允許系統分別處理不同的時間方面。具體而言，下列術語隨時間變化：項目偏差 bi(t) ; 用戶偏差 bu(t) ; 和用戶偏好 pu(t) 。

首先，時間效應表明了了一個項目的受歡迎程度可能隨時間而變化的事實。例如，電影可以由外部事件（例如演員在新電影中出現）觸發而進入受歡迎程度。因此，這些模型將項目偏差

雖然前面的例子涉及增強用戶表示（缺少數據很常見），但在必要時，物品可以得到類似的處理。

時間動態

到目前爲止，所提出的模型是靜態的。實際上，隨着新的選擇的出現，產品的感知和受歡迎程度也在不斷變化。同樣，顧客的傾向也在發展，導致他們重新定義自己的品味。因此，系統應考慮時間效應，反映在用戶項目交互的動態性和時間漂移性。

矩陣分解方法非常適合對時間效應進行建模，這可以顯着提高準確性。將評分分解爲不同的術語允許系統分別處理不同的時間方面。具體而言，下列術語隨時間變化：項目偏差 bi(t) ; 用戶偏差 bu(t) ; 和用戶偏好 pu(t) 。

首先，時間效應表明了了一個項目的受歡迎程度可能隨時間而變化的事實。例如，電影可以由外部事件（例如演員在新電影中出現）觸發而進入受歡迎程度。因此，這些模型將項目偏差 bi 作爲時間的函數。其次，時間效應允許用戶隨着時間改變他們的基準評級。例如，傾向於評價平均電影「4星」的用戶現在可以評價這樣的電影「3星」。這可能反映了幾個因素，包括用戶評分等級中的自然漂移，用戶相對於其他最近的評分分配評分以及評估者在家庭中的身份可能隨時間改變的事實。因此，在這些模型中，參數 bu

相關標籤/搜索

推薦系統

矩陣

推薦系統中的矩陣分解技術

推薦系統中的矩陣分解技術

推薦系統策略

矩陣因式分解方法

一個基本的矩陣分解模型

學習算法

隨機梯度下降

交叉最小二乘

增加偏置

額外的輸入源

時間動態

時間動態