最小二乘法小結

    最小二乘法是用來作函數擬合或者求函數極值的方法。在機器學習,尤爲是迴歸模型中,常常能夠看到最小二乘法的身影,這裏就對我對最小二乘法的認知作一個小結。機器學習

1.最小二乘法的原理與要解決的問題 

    最小二乘法是由勒讓德在19世紀發現的,原理的通常形式很簡單,固然發現的過程是很是艱難的。形式以下式:$$目標函數 = \sum\limits(觀測值-理論值)^2$$分佈式

    觀測值就是咱們的多組樣本,理論值就是咱們的假設擬合函數。目標函數也就是在機器學習中常說的損失函數,咱們的目標是獲得使目標函數最小化時候的擬合函數的模型。舉一個最簡單的線性迴歸的簡單例子,好比咱們有m個只有一個特徵的樣本:函數

    \((x^{(1)},y^{(1)}), (x^{(2)},y^{(2)},...(x^{(m)},y^{(m)})\)學習

    樣本採用下面的擬合函數:大數據

    \(h_\theta(x) = \theta_0 + \theta_1 x\)優化

    這樣咱們的樣本有一個特徵x,對應的擬合函數有兩個參數\(\theta_0 和 \theta_1\)須要求出。資源

    咱們的目標函數爲:it

    \(J(\theta_0, \theta_1) = \sum\limits_{i=1}^{m}(y^{(i)} - h_\theta(x^{(i)})^2 = \sum\limits_{i=1}^{m}(y^{(i)} -  \theta_0 - \theta_1 x^{(i)})^2 \) 原理

    用最小二乘法作什麼呢,使\(J(\theta_0, \theta_1)\)最小,求出使\(J(\theta_0, \theta_1)\)最小時的\(\theta_0 和 \theta_1\),這樣擬合函數就得出了。循環

    那麼,最小二乘法怎麼才能使\(J(\theta_0, \theta_1)\)最小呢?

2.最小二乘法的代數法解法

    上面提到要使\(J(\theta_0, \theta_1)\)最小,方法就是對\(\theta_0 和 \theta_1\)分別來求偏導數,令偏導數爲0,獲得一個關於\(\theta_0 和 \theta_1\)的二元方程組。求解這個二元方程組,就能夠獲得\(\theta_0 和 \theta_1\)的值。下面咱們具體看看過程。

    \(J(\theta_0, \theta_1)對\theta_0\)求導,獲得以下方程:

    \(\sum\limits_{i=1}^{m}(y^{(i)} -  \theta_0 - \theta_1 x^{(i)}) = 0 \)                                  ①

    \(J(\theta_0, \theta_1)對\theta_1\)求導,獲得以下方程:

    \(\sum\limits_{i=1}^{m}(y^{(i)} -  \theta_0 - \theta_1 x^{(i)})x^{(i)} = 0 \)         ②

    ①和②組成一個二元一次方程組,容易求出\(\theta_0 和 \theta_1\)的值:

    

    \(\theta_0 = \sum\limits_{i=1}^{m}\big(x^{(i)})^2\sum\limits_{i=1}^{m}y^{(i)} - \sum\limits_{i=1}^{m}x^{(i)}\sum\limits_{i=1}^{m}x^{(i)}y^{(i)} \Bigg/ m\sum\limits_{i=1}^{m}\big(x^{(i)})^2 - \big(\sum\limits_{i=1}^{m}x^{(i)})^2\)

 

    \(\theta_1 = m\sum\limits_{i=1}^{m}x^{(i)}y^{(i)} - \sum\limits_{i=1}^{m}x^{(i)}\sum\limits_{i=1}^{m}y^{(i)} \Bigg/ m\sum\limits_{i=1}^{m}\big(x^{(i)})^2 - \big(\sum\limits_{i=1}^{m}x^{(i)})^2\)

 

    這個方法很容易推廣到多個樣本特徵的線性擬合。

    擬合函數表示爲 \(h_\theta(x_1, x_2, ...x_n) = \theta_0 + \theta_{1}x_1 + ... + \theta_{n}x_{n}\), 其中\(\theta_i \) (i = 0,1,2... n)爲模型參數,\(x_i \) (i = 0,1,2... n)爲每一個樣本的n個特徵值。這個表示能夠簡化,咱們增長一個特徵\(x_0 = 1 \) ,這樣擬合函數表示爲:

    \(h_\theta(x_0, x_1, ...x_n) = \sum\limits_{i=0}^{n}\theta_{i}x_{i}\)。

    損失函數表示爲:

           \(J(\theta_0, \theta_1..., \theta_n) = \sum\limits_{j=1}^{m}(h_\theta(x_0^{(j)}), x_1^{(j)}, ...x_n^{(j)})) - y^{(j)}))^2 = \sum\limits_{j=1}^{m}(\sum\limits_{i=0}^{n}\theta_{i}x_{i}^{(j)}- y^{(j)})^2 \)

    利用損失函數分別對\(\theta_i\)(i=0,1,...n)求導,並令導數爲0可得:

    \(\sum\limits_{j=0}^{m}(\sum\limits_{i=0}^{n}(\theta_{i}x_{i}^{(j)} - y^{(j)})x_i^{(j)}\) = 0   (i=0,1,...n)

    這樣咱們獲得一個N+1元一次方程組,這個方程組有N+1個方程,求解這個方程,就能夠獲得全部的N+1個未知的\(\theta\)。

    

    這個方法很容易推廣到多個樣本特徵的非線性擬合。原理和上面的同樣,都是用損失函數對各個參數求導取0,而後求解方程組獲得參數值。這裏就不累述了。

 

3.最小二乘法的矩陣法解法

    矩陣法比代數法要簡潔,且矩陣運算能夠取代循環,因此如今不少書和機器學習庫都是用的矩陣法來作最小二乘法。

    這裏用上面的多元線性迴歸例子來描述矩陣法解法。

    

    假設函數\(h_\theta(x_1, x_2, ...x_n) = \theta_0 + \theta_{1}x_1 + ... + \theta_{n-1}x_{n-1}\)的矩陣表達方式爲:

     \(h_\mathbf{\theta}(\mathbf{x}) = \mathbf{X\theta}\) 

    其中, 假設函數\(h_\mathbf{\theta}(\mathbf{X})\)爲mx1的向量,\(\mathbf{\theta}\)爲nx1的向量,裏面有n個代數法的模型參數。\(\mathbf{X}\)爲mxn維的矩陣。m表明樣本的個數,n表明樣本的特徵數。

    損失函數定義爲\(J(\mathbf\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\theta} - \mathbf{Y})\)

    其中\(\mathbf{Y}\)是樣本的輸出向量,維度爲mx1. \(\frac{1}{2}\)在這主要是爲了求導後係數爲1,方便計算。

    根據最小二乘法的原理,咱們要對這個損失函數對\(\mathbf{\theta}\)向量求導取0。結果以下式:

    \(\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) = \mathbf{X}^T(\mathbf{X\theta} - \mathbf{Y}) = 0 \)

    這裏面用到了矩陣求導鏈式法則,和兩個個矩陣求導的公式。

      公式1:\(\frac{\partial}{\partial\mathbf{x}}(\mathbf{x^Tx}) =2\mathbf{x}\;\;x爲向量\)

      公式2:\(\nabla_Xf(AX+B) = A^T\nabla_Yf,\;\; Y=AX+B,\;\;f(Y)爲標量\)

    對上述求導等式整理後可得:

    \( \mathbf{X^{T}X\theta} = \mathbf{X^{T}Y} \)

    兩邊同時左乘\((\mathbf{X^{T}X})^{-1}\)可得:

    \( \mathbf{\theta} = (\mathbf{X^{T}X})^{-1}\mathbf{X^{T}Y} \)

    這樣咱們就一會兒求出了\(\theta\)向量表達式的公式,免去了代數法一個個去求導的麻煩。只要給了數據,咱們就能夠用\( \mathbf{\theta} = (\mathbf{X^{T}X})^{-1}\mathbf{X^{T}Y} \)算出\(\theta\)。

 

4.最小二乘法的侷限性和適用場景  

    從上面能夠看出,最小二乘法適用簡潔高效,比梯度降低這樣的迭代法彷佛方便不少。可是這裏咱們就聊聊最小二乘法的侷限性。

    首先,最小二乘法須要計算\(\mathbf{X^{T}X}\)的逆矩陣,有可能它的逆矩陣不存在,這樣就沒有辦法直接用最小二乘法了,此時梯度降低法仍然可使用。固然,咱們能夠經過對樣本數據進行整理,去掉冗餘特徵。讓\(\mathbf{X^{T}X}\)的行列式不爲0,而後繼續使用最小二乘法。

    第二,當樣本特徵n很是的大的時候,計算\(\mathbf{X^{T}X}\)的逆矩陣是一個很是耗時的工做(nxn的矩陣求逆),甚至不可行。此時以梯度降低爲表明的迭代法仍然可使用。那這個n到底多大就不適合最小二乘法呢?若是你沒有不少的分佈式大數據計算資源,建議超過10000個特徵就用迭代法吧。或者經過主成分分析下降特徵的維度後再用最小二乘法。

    第三,若是擬合函數不是線性的,這時沒法使用最小二乘法,須要經過一些技巧轉化爲線性才能使用,此時梯度降低仍然能夠用。

    第四,講一些特殊狀況。當樣本量m不多,小於特徵數n的時候,這時擬合方程是欠定的,經常使用的優化方法都沒法去擬合數據。當樣本量m等於特徵數n的時候,用方程組求解就能夠了。當m大於n時,擬合方程是超定的,也就是咱們經常使用與最小二乘法的場景了。

 

(歡迎轉載,轉載請註明出處。歡迎溝通交流: liujianping-ok@163.com)  

相關文章
相關標籤/搜索