在上一篇中,我們介紹了機器學習任務的一般步驟。現在我們對具體任務進行講解
給定訓練數據集 ,其中 。迴歸學習一個從輸入 到輸出 的映射 。當增加新的數據集時, 用學習到的映射 對其進行預測 。若是學習到的這個映射 是一個線性函數:
則我們稱之爲線性迴歸模型。
前面我們已經提過,目標函數通常包括兩項:損失函數和正則項
其中,我們的L2損失就使用到殘差平方和(residual sum of squares,RSS):
(1)、最小二乘線性迴歸(Ordinary Least Square,OLS):
由於線性模型比較簡單,所以當
時,目標函數爲
(2)、嶺迴歸(Ridge Regression):
當正則項爲L2時,即
,目標函數爲
(3)、Lasso模型:
當正則項爲L1時,即
,目標函數爲
(1)、最小二乘(線性)迴歸等價於極大似然估計
假設
,其中
爲線性預測值與真值之間的殘差,我們通常假設這個殘差服從高斯分佈,
.因此線性迴歸可以寫成:
,其中
我們複習下極大似然估計(Maximize Likelihood Estimator,MLE)的定義:
其中(log)似然函數爲:
表示在參數爲
的情況下,數據
出現的概率。極大似然就是選擇數據出現概率最大的參數。
線性迴歸法MLE:
因爲OLS的似然函數爲:
又因爲極大似然可等價地寫成極小負log似然損失(negative log likelihood,NLL):
最大化似然公式L(θ)相當於最小化
等價於最小二乘迴歸
(2)、正則迴歸等價於貝葉斯分佈
假設殘差分佈
,線性迴歸可以寫成
a、假設
的先驗分佈爲高斯分佈
所以
其中
控制先驗的強度
根據貝葉斯公式公式,得到參數的後驗分佈爲
爲方便計算,取對數
得到最大後驗估計(MAP)等價於最小目標函數
對比下嶺迴歸的目標函數
b、假設
的先驗分佈爲Laplace分佈
所以
根據貝葉斯公式公式,得到參數的後驗分佈爲
爲方便計算,取對數
得到最大後驗估計(MAP)等價於最小目標函數
|w|)
爲方便計算,取對數
得到最大後驗估計(MAP)等價於最小目標函數
得到最大後驗估計(MAP)等價於最小目標函數