線性迴歸

時間 2019-11-17

標籤線性迴歸欄目應用數學简体版

原文原文鏈接

迴歸問題是根據一組特徵(feature)，預測一個值，和分類問題不一樣，這個值是連續的，分類問題的預測值是離散的。spa

m：訓練集的記錄條數orm

x：訓練集中的一條記錄的輸入變量部分，或者說特徵值spark

y：訓練集中的記錄的輸出變量，或者說目標值io

假設特徵的個數是1，即有一組(x, y)的值，針對新的x的值，預測y的值。模型以下：function

問題轉化爲求θ0和θ1的值。變量

最小二乘法，得出cost function：技巧

問題轉化爲求上面②式的最小值。方法

最小值求解問題有多種解法，下面介紹梯度降低法和normal equation法。im

梯度降低法：數據

從一組θ0和θ1的值開始，每次迭代都改變θ0和θ1的值，使得②式的值愈來愈小，直到收斂。

上式中，α稱爲learning rate，這個值既不能太大也不能過小(須要在實際操做時，沒迭代n次，記下J(θ0, θ1)的值，觀察J(θ0, θ1)是否愈來愈小)，若是太大，J(θ0, θ1)可能沒法收斂，若是過小，要迭代的次數太多，運行時間會很長。

上圖表示J(θ0, θ1)對θj的偏導數。

同時改變θ0和θ1的值，θ0 := θ0 - α(J(θ0, θ1)對θ0的偏導數)，θ1 := θ1 - α(J(θ0, θ1)對θ1的偏導數)，直到J(θ0, θ1)的值收斂(例如，兩次迭代，J(θ0, θ1)的值減少的程度小於0.001)。

normal equation：

兩種方法的比較：

梯度降低 vs normal equation
梯度降低須要選定一個α，normal equation不須要
梯度降低須要迭代不少次，normal equation不須要
梯度降低須要考慮scale問題，normal equation不須要

梯度降低在特徵數目很大的時候，works well，normal equation在矩陣計算時會很expensive，(特徵數大概10000左右時能夠考慮用梯度降低)

還有一些其餘更復雜的方法：

conjugate gradient(共軛梯度法)
BFGS(擬牛頓法)
L-BFGS

等

在實際使用梯度降低時，有幾個技巧

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。