七、Logistic迴歸

logistic迴歸是使用最多的分類算法算法

二分類

預測值:yε{0, 1}, 0表明負類(No, 假設不成立);1表明正類(Yes,假設成立)網絡

應用:郵件分類(垃圾郵件 or 非垃圾郵件)函數

假設函數

logistic函數又稱Sigmoid函數,是一個在生物學中常見的S型函數,也稱爲S型生長曲線。因爲其單增以及反函數單增等性質,常被用做神經網絡等閥值函數,將變量映射到0-1之間,因此logistic函數到預測值:0≤y≤1學習

logistic方程式:g(z) = 1/(1 + e-z),0≤g(z)≤1優化

線性迴歸假設函數:h(x) = θTxspa

因此,logistic假設函數:h(x) = g(θTx) = 1/(1 + eTx),0≤h(x)≤1
blog

logistic模型解釋

由於預測值y只能取值0或者1,根據機率在給定參數θ下機率P(y=1)和P(y=0)的和爲1,即:P(y=0;θ) + P(y=1;θ) = 1
it

決策界限

根據logistic圖形class

  • h(z)≥0.5,y=1; 由h(z)=g(θTx)≥0.5,推出z≥0, 即θTx≥0
  • h(z)<0.5,y=0;由h(z)=g(θTx)<0.5,推出z<0, 即θTx<0

因此z=0是假設函數的決策界限,決策界限是假設函數的一個屬性,它把假設函數圖形分紅兩半:y=0和y=1變量

損失函數

訓練集:{(x1,y1),(x2,y2),(x3,y3),...,(xm,ym)} ,m個樣本

X = [x0 x1 ... xm]T, x0=1, yε{0, 1}

h(x) = 1/(1 + eTx) 

線性迴歸損失函數:J(θ)=Σ(h(xi)-yi)2/m, iε{1, m}

令Cost(h(xi),yi)=(h(xi)-yi)2

因此,J(θ)=Σ(h(xi)-yi)2/m=ΣCost(h(xi),yi)/m, iε{1, m}

損失函數:

  • Cost(h(x), y)=-log(h(x)), y=1
  • Cost(h(x), y)= -log(1-h(x)), y=0

結合圖形:

一、當y=1:

  • h(x)=1時,Cost=0,損失函數值最小
  • h(x)=0時,Cost=∞,損失函數值最大

二、當y=0:

  • h(x)=0時,Cost=0,損失函數值最小
  • h(x)=1時,Cost=∞,損失函數值最大 

簡化損失函數和梯度降低

J(θ)=Σ(h(xi)-yi)2/m=ΣCost(h(xi),yi)/m, iε{1, m}

Cost(h(x), y)=-log(h(x)), y=1

Cost(h(x), y)= -log(1-h(x)), y=0

簡化損失函數:

Cost(h(x), y)=-log(h(x))-(1-y)log(1-h(x))

因此梯度降低:J(θ)=Σ(h(xi)-yi)2/m=-Σyilog(h(xi))+(1-yi)log(1-h(xi))/m, iε{1, m}

簡化損失函數和梯度降低

minJ(θ): repeat{ θj := θj-α(∂/∂θj)J(θ)}

梯度降低和縮放一樣適用於logistic迴歸

高級優化方法

  • cojugate gradient
  • BFGS
  • L-BFGS

以上三種算法的優勢:不須要選擇學習率,比梯度降低收斂速度快

缺點:比梯度降低算法複雜

多分類問題

簡化爲二分類問題來處理,好比三分類簡化爲三個二分類來處理

相關文章
相關標籤/搜索