《推薦系統》學習心得

2019年4月1日21:32:02函數

今天閱讀了Charu C . Aggarwal 著做《推薦系統-原理與實踐》,主要內容包括 矩陣分解優化

一、無約束矩陣分解this

a)          ,知足U和V上無約束3d

b)        預測矩陣R的(i,j)位置的值orm

c)       blog

 

d)       梯度求導須要對同時求導it

二、隨機梯度降低io

a)        對矩陣中是數據進行隨機打亂,更細已知點的值table

三、正則化form

a)        正則化是當評分矩陣R稀疏且已知值相對較少時,會出現過擬合問題。爲了解決過擬合問題,在目標函數中添加了正則項,其中爲正則化參數,非負數,正則化實際上是加入了矩陣的二範數。

b)        正則化目標函數爲

c)        

 

四、增量式隱份量訓練

a)        類型循環訓練的方式,每次僅對q=1執行更新,分別學術U和V的第一列和。而後從R中減去外積矩陣。如此循環。

b)        增量方法須要調整外循環的兩次執行之間的評分矩陣。所以優化的參數較少,該方法會對每一個份量的收斂更快、更穩定。

五、交替最小二乘和座標降低

a)        交替最小二乘法

                        i.              固定U不變,經過將問題轉化爲最小二乘迴歸問題來處理V的n行中的每一行。每行計算相互獨立,可並行計算。

                      ii.              保持V不變,經過將問題轉化爲最小二乘迴歸問題來處理U的m行中的每一行。每行計算相互獨立,可並行計算。

                    iii.              這兩個步驟迭代直到收斂。當目標函數中包含正則化項,依舊進行迭代。

b)        座標降低法

                        i.              經過對矩陣中的每一個點,中的每一個點,保持其餘參數不變,每次進行訓練其中的一個點,相似訓練座標(i,j)。

六、合併用戶和物品誤差

a)        思想爲用戶可能存在評價誤差,一些用戶偏向於給高分,一些用戶偏向於給低分,即吝嗇用戶。

b)        經過引入變量,表示用戶評分值的通常誤差。

c)        一樣的,可能一些商品存在好評,大賣的商品可以廣泛得到較高的評分,而殘次品可能廣泛得到較低評分

d)       經過引入變量,表示商品評分的通常誤差

e)        損失變爲 

 

 

 2019年4月2日22:03:56

決策樹方法

決策樹是對特徵向量上的特徵,構造樹節點,並基於基尼指數 

來評估節點劃分的準確性。

非對稱因子模型

非對稱因子模型主要創新在於引入;  隱式反饋矩陣。 對於m X n 的評分矩陣R,若是r_ij 已知,則將mXn隱式反饋矩陣的F=【f_ij】置爲1,若是未知,則爲0.

也就是說 假定用戶已經給出了評分,則對物品的評價已經產生了信息,無需考慮對應的評分結果是多少。 訓練過程,用矩陣 FY 用與替代用戶因子矩陣 U 。 、

評分矩陣被分解爲 R≈[ FY ] V^t  。

主要創新在於用FY 來代替 傳統因子分解的 FY

該思路能夠簡化模型訓練過程,參數更少,且效果依舊可以獲得提高。

SVD++(雖然叫SVD++,其實矩陣並不是正交,存在誤導)

SVD++ 中,將隱含用戶-因子矩陣FY不用於建立顯示用戶-因子矩陣 U,而僅是調整它。

預測評分r_ij表示爲

 

奇異值分解(SVD)

奇異值分解是矩陣分解的一種形式,其中 U 和 V 的列被限定爲相互正交的。相互正交的優勢在於。概念能夠徹底獨立於彼此且能夠在散點圖中進行幾何解釋。

其中分別是mxk 、kxk、nxk的矩陣。

用戶因子定位爲   , 

分解過程的目標是用正交列發現矩陣 U 和 V ,故SVD能夠表示爲矩陣 U 和 V  上的優化問題。

知足:

U的列相互正交

V的列相互正交

 非負矩陣分解

非負矩陣分解的優點在於,較強的可解釋性。要求矩陣中的每一項均爲非負數。

優化目標函數爲 

至關於在迭代過程當中,對r_ij  嵌套了 max(r_ij ,0)

矩陣因子分解總結

前文贅述的各類矩陣因子分解模型,有不少相同之處。全部以前提到的優化問題都在對因本身在U 和 V 的各類約束下是的剩餘矩陣   (R-UV^t)的 Forbenius範數(F範數)最小化。目標函數的目的是是的UV^t 儘量近似評分矩陣R。對因子矩陣的限制則實現不一樣程度的可解釋性。 

普遍的矩陣分解模型家族可使用任何其餘目標函數或約束來達到類似的近似。  泛化的形式爲

Optimize J = 【對於R和 UV^T的匹配進行量化的目標函數】, 知足:U和V上的約束。

一般會加入正則化因子 防止過擬合。

 

矩陣因子分解方法族 
方法 約束 目標 缺點
無約束 無約束 Forbenius + 正則項 z最優質的解;對大多數矩陣適用;正則化避免過擬合;可解釋性差
SVD 正交 Forbenius+正則項 可視化的解釋;樣本外推薦:適用於密集矩陣;語義可解釋性差;係數矩陣效果很差
最大裕量 無約束 鉸鏈損失+裕量正則化 最優質的解;避免過擬合;與無約束狀況相似;可解釋性差;適用於離散評分
非負矩陣分解 非負 Forbenius+正則化 優質解;高語義可解釋性;能夠同時對喜歡和不喜歡進行評分時可解釋性差;一些狀況下較少出現過擬合;最適合用於隱式反饋
機率隱語義分析 非負 最大似然+正則化 優質解;高語義可解釋性;機率可解釋性;能夠同時對喜歡和不喜歡進行評分時可解釋性差;一些狀況下較少出現過擬合;適合用於隱式反饋
相關文章
相關標籤/搜索