線性判別分類器由向量$w$和誤差項$b$構成。給定樣例$x$,其按照以下規則預測得到類別標記$y$,即
$y=sign(w^Tx+b)$
後面統一使用小寫表示列向量,轉置表示行向量。
分類過程分爲以下兩步:html
爲了尋找最有的線性分類器,即$w$和$b$,一個經典的學習算法是線性判別分析(Fisher's Linear Discriminant Analysis,LDA)。算法
簡要來講,LDA的基本想法是使不一樣的樣本儘可能原理,使同類樣本儘可能靠近。segmentfault
這一目標能夠經過擴大不一樣類樣本的類中心距離,同時縮小每一個類的類內方差來實現。函數
在一個二分類數據集上,分別記全部正樣本的的均值爲$\\mu_+$,協方差矩陣爲$\\Sigma_+$;全部負樣本的的均值爲$\\mu_-$,協方差矩陣爲$\\Sigma_-$。學習
投影后的類中心間距離爲正類中心的投影點值減去負類投影點值:
$$S_B(w)=(w^T\mu_+-w^T\mu_-)^2$$優化
同時,類內方差可寫爲:
$$S_W(w)=\frac{\sum_x(w^Tx_i-w^T\mu_+)^2+\sum_x(w^Tx_i-w^T\mu_-)^2}{n-1}$$htm
$$=\frac{\sum_x(w^T(x_i-\mu_+))^2+\sum_x(w^T(x_i-\mu_-))^2}{n-1}$$blog
$$=\frac{\sum_xw^T(x_i-\mu_+)(w^T(x_i-\mu_+))^T+\sum_xw^T(x_i-\mu_-)(w^T(x_i-\mu_-))^T}{n-1}$$文檔
$$=\frac{w^T\sum_x(x_i-\mu_+)(x_i-\mu_+)^Tw+w^T\sum_x(x_i-\mu_-)(x_i-\mu_-)^Tw}{n-1}$$get
其中
$$\frac{\sum_x(x_i-\mu_+)(x_i-\mu_+)^T}{n-1} = \Sigma_+$$
是正類的協方差矩陣,注意
$$x(x_i-\mu_+)$$
是列向量,因此協方差是一個長寬等於數據維度的方陣。
最後:
$$S_W(w)=w^T\Sigma_+w+w^T\Sigma_-w$$
線性判別式的總目標就是最大化類間距離,最小化類內方差,相似於聚類:
$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{S_B(w)}{S_W(w)}$$
$$=\frac{(w^T\mu_+-w^T\mu_-)^2}{w^T\Sigma_+w+w^T\Sigma_-w}$$
$$= \frac{w^T(\mu_+-\mu_-)(w^T(\mu_+-\mu_-))^T}{w^T(\Sigma_+-\Sigma_-)w}$$
$$= \frac{w^T(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw}{w^T(\Sigma_+-\Sigma_-)w}$$
看到這個形式,咱們根據上一篇文檔的知識知道這個可使用廣義瑞利商來求極大值。
**背景介紹及推導見(瑞利商(Rayleigh quotient)與廣義瑞利商(genralized Rayleigh quotient)
**
下面只摘抄一些:
廣義瑞利商是指這樣的函數$𝑅(𝐴,𝐵,𝑥)$:
$$R(A,B,x) = \cfrac{X^{H}Ax}{X^{H}Bx}$$
其中𝑥爲非零向量,而𝐴,𝐵爲$𝑛×𝑛$的Hermitan矩陣。𝐵爲正定矩陣。
令
$$A=(\mu_+-\mu_-)(\mu_+-\mu_-)^T$$
$$B= \Sigma_+-\Sigma_- $$
$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{w^TAw}{w^TBw}$$
這個就很廣義瑞利商了。
至於w的值,使用拉格朗日乘子法能夠求解獲得:
$$B^{-1}Aw = \lambda w$$
$$B^{-1}(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw = \lambda w$$
因爲
$$(\mu_+-\mu_-)^Tw$$
是行向量乘列向量,因此結果是一個標量,
那咱們知道:
$$B^{-1}(\mu_+-\mu_-) \propto \lambda w$$
$$(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-) \propto w$$
因爲w咱們只關注方向而不是長度,因此能夠認爲:
$$w_{best} =(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-)$$