機器學習筆記(3)線性迴歸模型

在上一篇中,我們介紹了機器學習任務的一般步驟。現在我們對具體任務進行講解

一、模型

給定訓練數據集 D = { x i , y i } i = 1 N ,其中 y R 。迴歸學習一個從輸入 x 到輸出 y 的映射 f 。當增加新的數據集時, 用學習到的映射 f 對其進行預測 y ^ = f ( x ) 。若是學習到的這個映射 f 是一個線性函數:

                 y ^ = f ( x | w ) = w T x

則我們稱之爲線性迴歸模型。

1.目標函數

前面我們已經提過,目標函數通常包括兩項:損失函數和正則項
這裏寫圖片描述
其中,我們的L2損失就使用到殘差平方和(residual sum of squares,RSS):

            R S S = i = 1 N ( y i y i ^ ) = i = 1 N ( y i w T x i ) 2
           
(1)、最小二乘線性迴歸(Ordinary Least Square,OLS): 
    由於線性模型比較簡單,所以當 R ( θ ) = 0 時,目標函數爲
    
            J ( w ) = i = 1 N L ( y i , y i ^ ) = i = 1 N ( y i y i ^ ) = i = 1 N ( y i w T x i ) 2  

(2)、嶺迴歸(Ridge Regression):
    當正則項爲L2時,即 R ( θ ) = λ | | w | | 2 ,目標函數爲
    
            J ( w ) = i = 1 N ( y i w T x i ) 2 + λ | | w | | 2   
           
(3)、Lasso模型:
    當正則項爲L1時,即 R ( θ ) = λ | w | ,目標函數爲
    
            J ( w ) = i = 1 N ( y i w T x i ) 2 + λ | w |
           

2.概率解釋

(1)、最小二乘(線性)迴歸等價於極大似然估計
假設 y = f ( x ) + ε = w T x + ε ,其中 ε 爲線性預測值與真值之間的殘差,我們通常假設這個殘差服從高斯分佈, ε N ( 0 , σ 2 ) .因此線性迴歸可以寫成:

               p ( y | x , θ ) N ( y | w T x , σ 2 ) ,其中 θ = ( w , σ 2 )
              
我們複習下極大似然估計(Maximize Likelihood Estimator,MLE)的定義: 

               θ ^ = a r g m a x θ log p ( D | θ )
其中(log)似然函數爲:

               l ( θ ) = log p ( D | θ ) = i = 1 N log p ( y i | x i , θ )   
              
表示在參數爲 θ 的情況下,數據 D = { x i , y i } i = 1 N 出現的概率。極大似然就是選擇數據出現概率最大的參數。
線性迴歸法MLE: 

          p ( y i | x i , w , σ 2 ) = N ( y i | w T x i , σ 2 ) = 1 2 π σ e x p ( 1 2 σ 2 ( ( y i w T x i ) 2 ) )  
         
因爲OLS的似然函數爲: 

               l ( θ ) = log p ( D | θ ) = i = 1 N log p ( y i | x i , θ )   
              
又因爲極大似然可等價地寫成極小負log似然損失(negative log likelihood,NLL): 

               N L L ( θ ) = i = 1 N log p ( y i | x i , θ )
                  = i = 1 N log [ 1 2 π σ e x p ( 1 2 σ 2 ( ( y i w T x i ) 2 ) ) ]
                  = N 2 log ( 2 π σ 2 ) + 1 2 σ 2 i = 1 N ( y i w T x i ) 2   
                 
最大化似然公式L(θ)相當於最小化 N L L ( θ ) i = 1 N ( y i w T x i ) 2 等價於最小二乘迴歸 J ( w )

(2)、正則迴歸等價於貝葉斯分佈
假設殘差分佈 ε N ( 0 , σ 2 ) ,線性迴歸可以寫成 

               p ( y | x , θ ) N ( y | w T x , σ 2 )
               p ( y i | x i , w , σ 2 ) = N ( y i | w T x i , σ 2 I N ) e x p ( 1 2 σ 2 [ ( y X w ) T ( y X w ) ] )  
              
a、假設 w 的先驗分佈爲高斯分佈 w N ( 0 , τ 2 )  

所以             p ( w ) = j = 1 D N ( w j | 0 , τ 2 ) e x p ( 1 2 τ 2 j = 1 D w j 2 ) = e x p ( 1 2 τ 2 [ w T w ] )

其中 1 / τ 2 控制先驗的強度
根據貝葉斯公式公式,得到參數的後驗分佈爲 

               p ( w | X , y , σ 2 ) p ( y i | x i , w , σ 2 ) p ( w )
                      = e x p ( 1 2 σ 2 [ ( y X w ) T ( y X w ) ] 1 2 τ 2 [ w T w ] )  
                     
爲方便計算,取對數 log p ( w | X , y , σ 2 ) 得到最大後驗估計(MAP)等價於最小目標函數 

               J ( w ) = ( y X w ) T ( y X w ) + σ 2 τ 2 w T w  
              
對比下嶺迴歸的目標函數  

               J ( w ) = i = 1 N ( y i w T x i ) 2 + λ | | w | | 2  
b、假設 w 的先驗分佈爲Laplace分佈 w N ( 0 , b )  

所以             p ( w ) = j = 1 D N ( w j | μ , b ) = 1 2 b e x p ( | w μ | b )

                  = j = 1 D N ( w j | 0 , b ) e x p ( | w | b )
                 
根據貝葉斯公式公式,得到參數的後驗分佈爲 

              p ( w | X , y , σ 2 ) p ( y i | x i , w , σ 2 ) p ( w )
                      = e x p ( 1 2 σ 2 [ ( y X w ) T ( y X w ) ] 1 b | w | )
                    
爲方便計算,取對數 log p ( w | X , y , σ 2 ) 得到最大後驗估計(MAP)等價於最小目標函數 

               |w|) = e x p ( 1 2 σ 2 [ ( y X w ) T ( y X w ) ] 1 b | w | )
                    
爲方便計算,取對數 log p ( w | X , y , σ 2 ) 得到最大後驗估計(MAP)等價於最小目標函數 

                log p ( w | X , y , σ 2 ) 得到最大後驗估計(MAP)等價於最小目標函數 

               

相關文章
相關標籤/搜索