線性判別分析 Linear Discriminant Analysis,LDA

線性判別分類器由向量$w$和誤差項$b$構成。給定樣例$x$,其按照以下規則預測得到類別標記$y$,即
$y=sign(w^Tx+b)$
後面統一使用小寫表示列向量,轉置表示行向量。
分類過程分爲以下兩步:html

  • 首先,使用權重向量w將樣本空間投影到直線上去
  • 而後,尋找直線上一個點把正樣本和負樣本分開。

爲了尋找最有的線性分類器,即$w$和$b$,一個經典的學習算法是線性判別分析(Fisher's Linear Discriminant Analysis,LDA)。算法

簡要來講,LDA的基本想法是使不一樣的樣本儘可能原理,使同類樣本儘可能靠近。segmentfault

這一目標能夠經過擴大不一樣類樣本的類中心距離,同時縮小每一個類的類內方差來實現。函數

在一個二分類數據集上,分別記全部正樣本的的均值爲$\\mu_+$,協方差矩陣爲$\\Sigma_+$;全部負樣本的的均值爲$\\mu_-$,協方差矩陣爲$\\Sigma_-$。學習

類間距離

投影后的類中心間距離爲正類中心的投影點值減去負類投影點值:
$$S_B(w)=(w^T\mu_+-w^T\mu_-)^2$$優化

類內距離

同時,類內方差可寫爲:
$$S_W(w)=\frac{\sum_x(w^Tx_i-w^T\mu_+)^2+\sum_x(w^Tx_i-w^T\mu_-)^2}{n-1}$$htm

$$=\frac{\sum_x(w^T(x_i-\mu_+))^2+\sum_x(w^T(x_i-\mu_-))^2}{n-1}$$blog

$$=\frac{\sum_xw^T(x_i-\mu_+)(w^T(x_i-\mu_+))^T+\sum_xw^T(x_i-\mu_-)(w^T(x_i-\mu_-))^T}{n-1}$$文檔

$$=\frac{w^T\sum_x(x_i-\mu_+)(x_i-\mu_+)^Tw+w^T\sum_x(x_i-\mu_-)(x_i-\mu_-)^Tw}{n-1}$$get

其中
$$\frac{\sum_x(x_i-\mu_+)(x_i-\mu_+)^T}{n-1} = \Sigma_+$$
是正類的協方差矩陣,注意
$$x(x_i-\mu_+)$$
是列向量,因此協方差是一個長寬等於數據維度的方陣。

最後:

$$S_W(w)=w^T\Sigma_+w+w^T\Sigma_-w$$

優化目標

線性判別式的總目標就是最大化類間距離,最小化類內方差,相似於聚類:

$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{S_B(w)}{S_W(w)}$$

$$=\frac{(w^T\mu_+-w^T\mu_-)^2}{w^T\Sigma_+w+w^T\Sigma_-w}$$

$$= \frac{w^T(\mu_+-\mu_-)(w^T(\mu_+-\mu_-))^T}{w^T(\Sigma_+-\Sigma_-)w}$$

$$= \frac{w^T(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw}{w^T(\Sigma_+-\Sigma_-)w}$$

看到這個形式,咱們根據上一篇文檔的知識知道這個可使用廣義瑞利商來求極大值

廣義瑞利商

**背景介紹及推導見(瑞利商(Rayleigh quotient)與廣義瑞利商(genralized Rayleigh quotient)
**
下面只摘抄一些:

廣義瑞利商是指這樣的函數$𝑅(𝐴,𝐵,𝑥)$:
$$R(A,B,x) = \cfrac{X^{H}Ax}{X^{H}Bx}$$
其中𝑥爲非零向量,而𝐴,𝐵爲$𝑛×𝑛$的Hermitan矩陣。𝐵爲正定矩陣


$$A=(\mu_+-\mu_-)(\mu_+-\mu_-)^T$$

$$B= \Sigma_+-\Sigma_- $$

$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{w^TAw}{w^TBw}$$

這個就很廣義瑞利商了。

至於w的值,使用拉格朗日乘子法能夠求解獲得:

$$B^{-1}Aw = \lambda w$$

$$B^{-1}(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw = \lambda w$$

因爲
$$(\mu_+-\mu_-)^Tw$$
是行向量乘列向量,因此結果是一個標量,
那咱們知道:
$$B^{-1}(\mu_+-\mu_-) \propto \lambda w$$

$$(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-) \propto w$$

因爲w咱們只關注方向而不是長度,因此能夠認爲:

$$w_{best} =(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-)$$

教科書上的LDA爲何長這樣?
線性判別分析LDA原理總結

相關文章
相關標籤/搜索