七、Logistic迴歸

時間 2019-11-09

標籤 logistic 迴歸欄目應用數學简体版

原文原文鏈接

logistic迴歸是使用最多的分類算法算法

二分類

預測值：yε{0, 1}, 0表明負類(No, 假設不成立)；1表明正類(Yes，假設成立)網絡

應用：郵件分類(垃圾郵件 or 非垃圾郵件)函數

假設函數

logistic函數又稱Sigmoid函數，是一個在生物學中常見的S型函數，也稱爲S型生長曲線。因爲其單增以及反函數單增等性質，常被用做神經網絡等閥值函數，將變量映射到0-1之間，因此logistic函數到預測值：0≤y≤1學習

logistic方程式：g(z) = 1/(1 + e^-z)，0≤g(z)≤1優化

線性迴歸假設函數：h(x) = θ^Txspa

因此，logistic假設函數：h(x) = g(θ^Tx) = 1/(1 + e^{-θ^Tx})，0≤h(x)≤1
blog

logistic模型解釋

由於預測值y只能取值0或者1，根據機率在給定參數θ下機率P(y=1)和P(y=0)的和爲1，即：P(y=0;θ) + P(y=1;θ) = 1
it

決策界限

根據logistic圖形class

h(z)≥0.5，y=1; 由h(z)=g(θ^Tx)≥0.5,推出z≥0, 即θTx≥0
h(z)<0.5，y=0；由h(z)=g(θ^Tx)<0.5,推出z<0, 即θTx<0

因此z=0是假設函數的決策界限，決策界限是假設函數的一個屬性，它把假設函數圖形分紅兩半：y=0和y=1變量

損失函數

訓練集：{(x¹,y¹),(x²,y²),(x³,y³),...,(x^m,y^m)} ,m個樣本

X = [x₀ x₁ ... x_m]^T, x₀=1, yε{0, 1}

h(x) = 1/(1 + e^{-θ^Tx})

線性迴歸損失函數：J(θ)=Σ(h(xⁱ)-yⁱ)²/m, iε{1, m}

令Cost(h(xⁱ),yⁱ)=(h(xⁱ)-yⁱ)²

因此，J(θ)=Σ(h(xⁱ)-yⁱ)²/m=ΣCost(h(xⁱ),yⁱ)/m, iε{1, m}

損失函數：

Cost(h(x), y)=-log(h(x)), y=1
Cost(h(x), y)= -log(1-h(x)), y=0

結合圖形：

一、當y=1：

h(x)=1時，Cost=0，損失函數值最小
h(x)=0時，Cost=∞，損失函數值最大

二、當y=0:

h(x)=0時，Cost=0，損失函數值最小
h(x)=1時，Cost=∞，損失函數值最大

簡化損失函數和梯度降低

J(θ)=Σ(h(xⁱ)-yⁱ)²/m=ΣCost(h(xⁱ),yⁱ)/m, iε{1, m}

Cost(h(x), y)=-log(h(x)), y=1

Cost(h(x), y)= -log(1-h(x)), y=0

簡化損失函數：

Cost(h(x), y)=-log(h(x))-(1-y)log(1-h(x))

因此梯度降低：J(θ)=Σ(h(xⁱ)-yⁱ)²/m=-Σyⁱlog(h(xⁱ))+(1-yⁱ)log(1-h(xⁱ))/m, iε{1, m}

簡化損失函數和梯度降低

minJ(θ): repeat{ θ_j := θ_j-α(∂/∂θ_j)J(θ)}

梯度降低和縮放一樣適用於logistic迴歸

高級優化方法

cojugate gradient
BFGS
L-BFGS

以上三種算法的優勢：不須要選擇學習率，比梯度降低收斂速度快

缺點：比梯度降低算法複雜

多分類問題

簡化爲二分類問題來處理，好比三分類簡化爲三個二分類來處理

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。