Probabilistic interpretation,機率解釋
解釋爲什麼線性迴歸的損失函數會選擇最小二乘
函數
表示偏差,表示unmodeled因素或隨機噪聲,真實的y和預測出來的值之間是會有偏差的,由於咱們不可能考慮到全部的影響結果的因素,好比前面的例子,咱們根據面積和臥室的個數來預測房屋的價格,可是影響房屋價格的因素其實不少,並且有不少隨機因素,好比買賣雙方的心情,而根據中心極限定理,大量獨立的隨機變量的平均值是符合正態分佈或高斯分佈的
因此這裏對於由大量unmodeled因素致使的偏差的分佈,咱們假設也符合高斯分佈。由於你想一想,大量獨立隨機變量大部分偏差會互相抵消掉,而出現大量變量行爲類似形成較大偏差的機率是很小的。
能夠寫成,由於偏差的機率和預測出是真實值的機率是同樣的
spa
注意,這裏:
翻譯
不一樣於 :
表示這裏θ不是一個隨機變量,而是翻譯成given x(i) and parameterized by θ 由於對於訓練集,θ是客觀存在的,只是當前還不肯定,因此有:
blog
這個很容易理解,真實值應該是以預測值爲中心的一個正態分佈,給出θ似然性的定義:
給定訓練集X和參數θ,預測結果等於真正結果的機率,等同於該θ爲真實θ的可能性(似然性)。這裏probability和likelihood有什麼不一樣,答案沒有什麼不一樣。可是對於數據使用probability,對於參數使用likelihood,故最大似然法(maximum likelihood),就是找出L(θ)最大的那個θ,即機率分佈最fit訓練集的那個θ。數學
繼續推導,把上面的式子帶入,獲得
it
實際爲了數學計算方便,引入log likelihood,
io
能夠看到,最終咱們從L(θ)的最大似然估計,推導出損失函數J(θ),最小二乘法: 變量
Hence,maximizing l(θ) gives the same answer as minimizing
model
因此結論爲,最小二乘迴歸被認爲是進行最大似然估計的一個很天然的方法 。
方法