機器學習算法之機率分類法

對模型給予機率進行分類的手法稱爲機率分類法。給予機率是指對於模式X所對應的類別y的後驗機率(y|x)進行學習。其所屬類別爲後驗機率達到最大值時所對應的類別。算法

基於機率的模式識別的算法除了能夠避免錯誤分類,還具備一個優點。就是的對多分類一般會有一個號的效果。函數

1、Logistic迴歸

首先,來看一下最基本也是最多見的機率分類算法-----logistc迴歸。學習

一、Logistic的最大似然估計優化

Logistic迴歸,使用線性對數函數對分類後驗機率p(y|x)記性模型化。3d

分母是知足機率總和爲1 條件約束的正則化項。參數θ有bc維。blog

Logistic迴歸模型的學習,經過對數似然維最大時的最大似然估計進行求解。數學

Logistic迴歸的學習模型由下式的最優化問題定義:bfc

上述的目標函數對於參數θ時能夠微分的,因此可使用梯度降低法來求最大似然那估計的解。im

下面是使用機率梯度降低法的Logistic迴歸學習算法的僞代碼d3

 

 二、使用Logistic損失最小化學習來解釋

以2分類問題進行說明

y ∈{+1,-1},q(y=+1 | x;θ)+q(y= -1|x;θ) =1

Logistic的參數由2b個降到b個

這個模型的對數似然最大化的準則

能夠改寫爲上述形式。根據關於參數的線性模型

的間隔m = f(x)y,可知上式與Logistic損失

的Logistic損失最小化學習是等價的。

2、最小二乘機率分類

最小二乘分類是在平方偏差的準則下,與Logistic迴歸具備相同窗習的算法。

 最小二乘分類器的線性模型:

與Logistic模型不一樣的是,這個模型只依賴於與各個類別y對應的參數。而後,對於這個模型進行學習,使下式的平方偏差最小。

 

 

上式第二項中

p(y|x)p(x)利用貝葉斯公式進行變換。

p(y|x)p(x) = p(xy) = p(x|y)p(y)

分別表示與p(x)和p(x|y)相關的數學指望值。這些指望值通常沒法直接計算。而是用樣本的平均值來進行近似。

再加入l2正則化項,將最小平方偏差公式記爲:

對其求偏導數並置爲0,獲得θ的解

 

相關文章
相關標籤/搜索