吳恩達MachineLearning-week3

1.1 引出邏輯迴歸

雖然帶着迴歸兩字,可是它解決的是分類問題,而不是預測一段連續的值。python

根據線性迴歸模型咱們只能預測連續的值,然而對於分類問題,拿二分類舉例,咱們須要輸出0或1,咱們能夠預測:算法

{h_\theta}\left( x \right)>=0.5時,預測 y=1 ;當{h_\theta}\left( x \right)<0.5時,預測 y=0函數

雖然上述描述看起來能夠解決問題,可是這種模型當y>1時,模型也會所以改變,這時以0.5做爲閾值就不合適了,說明線性模型並不適合解決這樣的問題。學習

這時,咱們引入一個新的模型,該模型的輸出變量範圍始終在0和1之間。 h_\theta \left( x \right)=g\left(\theta^{T}X \right) 其中: X 表明特徵向量 g 表明邏輯函數(logistic function)或稱爲S形函數(Sigmoid function),公式爲: g\left( z \right)=\frac{1}{1+{{e}^{-z}}}優化

python代碼實現:spa

import numpy as np

def sigmoid(z):

  return 1 / (1 + np.exp(-z))
複製代碼

該函數的圖像爲:.net

h_\theta \left( x \right)的做用是,對於給定的輸入變量,根據選擇的參數計算輸出變量=1的可能性(estimated probablity),即3d

h_\theta \left( x \right)=P\left( y=1|x;\theta \right)

例如,若是對於給定的x,經過已經肯定的參數計算得出h_\theta \left( x \right)=0.7,則表示有70%的概率y爲正向類,相應地y爲負向類的概率爲1-0.7=0.3。code

1.2 代價函數

咱們有了假設h(θ),以下圖cdn

對於線性迴歸模型,咱們定義的代價函數是全部模型偏差的平方和。理論上來講,咱們也能夠對邏輯迴歸模型沿用這個定義,可是問題在於,當咱們將{h_\theta}\left( x \right)=\frac{1}{1+{e^{-\theta^{T}x}}}帶入到這樣定義了的代價函數中時,咱們獲得的代價函數將是一個非凸函數(non-convexfunction)。

這意味着咱們的代價函數有許多局部最小值,這將影響梯度降低算法尋找全局最小值。

線性迴歸的代價函數爲:J\left( \theta  \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{1}{2}{{\left( {h_\theta}\left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}} ;而後咱們從新定義邏輯迴歸的代價函數爲:

J\left( \theta  \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{{Cost}\left( {h_\theta}\left( {x}^{\left( i \right)} \right),{y}^{\left( i \right)} \right)},其中

{h_\theta}\left( x \right)Cost\left( {h_\theta}\left( x \right),y \right)之間的關係以下圖所示:

這樣構建的Cost\left( {h_\theta}\left( x \right),y \right)函數的特色是:

  • 當實際的 y=1{h_\theta}\left( x \right)也爲 1 時偏差爲 0,當 y=1{h_\theta}\left( x \right)不爲1時偏差隨着{h_\theta}\left( x \right)變小而變大;
  • 當實際的 y=0{h_\theta}\left( x \right)也爲 0 時代價爲 0,當y=0{h_\theta}\left( x \right)不爲 0時偏差隨着 {h_\theta}\left( x \right)的變大而變大。

將構建的 Cost\left( {h_\theta}\left( x \right),y \right)簡化以下: Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right) 帶入代價函數J(\theta)後獲得: J\left( \theta  \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]} 提負號:J\left( \theta  \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}

Python代碼實現:

import numpy as np

def cost(theta, X, y):

  theta = np.matrix(theta)
  X = np.matrix(X)
  y = np.matrix(y)
  first = np.multiply(-y, np.log(sigmoid(X* theta.T)))
  second = np.multiply((1 - y), np.log(1 - sigmoid(X* theta.T)))
  return np.sum(first - second) / (len(X))
複製代碼

1.3 梯度降低

在獲得這樣一個代價函數之後,咱們即可以用梯度降低算法來求得能使代價函數最小的參數了。算法爲:

Repeat {

\theta_j := \theta_j - \alpha \frac{\partial}{\partial\theta_j} J(\theta)

(simultaneously update all )

}

求導後獲得:

Repeat {

\theta_j := \theta_j - \alpha \frac{1}{m}\sum\limits_{i=1}^{m}{{\left( {h_\theta}\left( \mathop{x}^{\left( i \right)} \right)-\mathop{y}^{\left( i \right)} \right)}}\mathop{x}_{j}^{(i)}

(simultaneously update all )

}

因此,若是你有 n 個特徵,也就是說:

,參數向量 \theta包括 {\theta_{0}} {\theta_{1}} {\theta_{2}} 一直到 {\theta_{n}},那麼你就須要用這個式子。

推導過程:

J\left( \theta  \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]} 考慮: {h_\theta}\left( {{x}^{(i)}} \right)=\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} 則: {{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right) ={{y}^{(i)}}\log \left( \frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} \right) =-{{y}^{(i)}}\log \left( 1+{{e}^{-{\theta^T}{{x}^{(i)}}}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{{\theta^T}{{x}^{(i)}}}} \right)

因此: \frac{\partial }{\partial {\theta_{j}}}J\left( \theta  \right)=\frac{\partial }{\partial {\theta_{j}}}[-\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( 1+{{e}^{-{\theta^{T}}{{x}^{(i)}}}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{{\theta^{T}}{{x}^{(i)}}}} \right)]}] =-\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\frac{-x_{j}^{(i)}{{e}^{-{\theta^{T}}{{x}^{(i)}}}}}{1+{{e}^{-{\theta^{T}}{{x}^{(i)}}}}}-\left( 1-{{y}^{(i)}} \right)\frac{x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}}] =-\frac{1}{m}\sum\limits_{i=1}^{m}{{y}^{(i)}}\frac{x_j^{(i)}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}-\left( 1-{{y}^{(i)}} \right)\frac{x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}] =-\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{{{y}^{(i)}}x_j^{(i)}-x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}+{{y}^{(i)}}x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}} =-\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{{{y}^{(i)}}\left( 1\text{+}{{e}^{{\theta^T}{{x}^{(i)}}}} \right)-{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}x_j^{(i)}} =-\frac{1}{m}\sum\limits_{i=1}^{m}{({{y}^{(i)}}-\frac{{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}})x_j^{(i)}} =-\frac{1}{m}\sum\limits_{i=1}^{m}{({{y}^{(i)}}-\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}})x_j^{(i)}} =-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}-{h_\theta}\left( {{x}^{(i)}} \right)]x_j^{(i)}} =\frac{1}{m}\sum\limits_{i=1}^{m}{[{h_\theta}\left( {{x}^{(i)}} \right)-{{y}^{(i)}}]x_j^{(i)}}

注:雖然獲得的梯度降低算法表面上看上去與線性迴歸的梯度降低算法同樣,可是這裏的{h_\theta}\left( x \right)=g\left( {\theta^T}X \right)與線性迴歸中不一樣,因此其實是不同的。另外,在運行梯度降低算法以前,進行特徵縮放依舊是很是必要的。

一些梯度降低算法以外的選擇: 除了梯度降低算法之外,還有一些常被用來令代價函數最小的算法,這些算法更加複雜和優越,並且一般不須要人工選擇學習率,一般比梯度降低算法要更加快速。這些算法有:共軛梯度Conjugate Gradient),局部優化法(Broyden fletcher goldfarb shann,BFGS)和有限內存局部優化法(LBFGS)

2.1 正則化

2.1.1 過擬合問題

第一個模型是一個線性模型,欠擬合,不能很好地適應咱們的訓練集;第三個模型是一個四次方的模型,過於強調擬合原始數據,而丟失了算法的本質:預測新數據。咱們能夠看出,若給出一個新的值使之預測,它將表現的不好,是過擬合,雖然能很是好地適應咱們的訓練集但在新輸入變量進行預測時可能會效果很差;而中間的模型彷佛最合適。

就以多項式理解,x 的次數越高,擬合的越好,但相應的預測的能力就可能變差。

問題是,若是咱們發現了過擬合問題,應該如何處理?

  1. 丟棄一些不能幫助咱們正確預測的特徵。能夠是手工選擇保留哪些特徵,或者使用一些模型選擇的算法來幫忙(例如PCA

  2. 正則化。 保留全部的特徵,可是減小參數的大小(magnitude)。

2.1.2 代價函數

上面的迴歸問題中若是咱們的模型是: {h_\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}+{\theta_{3}}{x_{3}^3}+{\theta_{4}}{x_{4}^4} 咱們能夠從以前的事例中看出,正是那些高次項致使了過擬合的產生,因此若是咱們能讓這些高次項的係數接近於0的話,咱們就能很好的擬合了。因此咱們要作的就是在必定程度上減少這些參數\theta 的值,這就是正則化的基本方法。

咱們有一個較爲簡單的防止過擬合的假設: J\left( \theta  \right)=\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta_{j}^{2}}]}

其中\lambda又稱爲正則化參數(Regularization Parameter)。像下圖中Regulated就是正則化以後的曲線,相對擬合的更好一些。

但若是選擇的正則化參數\lambda 過大,則會把全部的參數都最小化了,致使模型變成 {h_\theta}\left( x \right)={\theta_{0}},也就是上圖中紅色直線所示的狀況,形成欠擬合。

那爲何增長的一項\lambda =\sum\limits_{j=1}^{n}{\theta_j^{2}} 可使\theta的值減少呢? 由於若是咱們令 \lambda 的值很大的話,爲了使Cost Function 儘量的小,全部的 \theta 的值(不包括{\theta_{0}})都會在必定程度上減少。 但若\lambda 的值太大了,那麼\theta(不包括{\theta_{0}})都會趨近於0,這樣咱們所獲得的只能是一條平行於x軸的直線。 因此對於正則化,咱們要取一個合理的 \lambda 的值,這樣才能更好的應用正則化。 回顧一下代價函數,爲了使用正則化,讓咱們把這些概念應用到到線性迴歸和邏輯迴歸中去,那麼咱們就可讓他們避免過分擬合了。

2.1.3 正則化線性迴歸

正則化線性迴歸的代價函數爲:

J\left( \theta  \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{[({{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta _{j}^{2}})]}

若是咱們要使用梯度降低法令這個代價函數最小化,由於咱們未對\theta_0進行正則化,因此梯度降低算法將分兩種情形:

Repeat until convergence{

{\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})

{\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]

for j=1,2,...n

}

對上面的算法中j=1,2,...,n 時的更新式子進行調整可得: {\theta_j}:={\theta_j}(1-a\frac{\lambda }{m})-a\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}} 能夠看出,正則化線性迴歸的梯度降低算法的變化在於,每次都在原有算法更新規則的基礎上令\theta值減小了一個額外的值。

咱們一樣也能夠利用正規方程來求解正則化線性迴歸模型,方法以下所示:

圖中的矩陣尺寸爲 (n+1)*(n+1)

2.1.4 正則化邏輯迴歸模型

本身計算導數一樣對於邏輯迴歸,咱們也給代價函數增長一個正則化的表達式,獲得代價函數:

J\left( \theta  \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\frac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}}

Python代碼:

import numpy as np

def costReg(theta, X, y, learningRate):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X*theta.T)))
    second = np.multiply((1 - y), np.log(1 - sigmoid(X*theta.T)))
    reg = (learningRate / (2 * len(X))* np.sum(np.power(theta[:,1:theta.shape[1]],2))
    return np.sum(first - second) / (len(X)) + reg
複製代碼

要最小化該代價函數,經過求導,得出梯度降低算法爲:

Repeat until convergence{

{\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})

{\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]

for j=1,2,...n

}

雖然看起來同樣的😂,可是{h_\theta}\left( x \right)=g\left( {\theta^T}X \right),因此是不一樣的。

相關文章
相關標籤/搜索