線性判別分析 Linear Discriminant Analysis，LDA

時間 2020-11-21

標籤 html 算法 segmentfault 函數學習優化 htm blog 文檔 get 欄目應用數學简体版

原文原文鏈接

線性判別分類器由向量$w$和誤差項$b$構成。給定樣例$x$，其按照以下規則預測得到類別標記$y$，即
$y=sign(w^Tx+b)$
後面統一使用小寫表示列向量，轉置表示行向量。
分類過程分爲以下兩步：html

首先，使用權重向量w將樣本空間投影到直線上去
而後，尋找直線上一個點把正樣本和負樣本分開。

爲了尋找最有的線性分類器，即$w$和$b$，一個經典的學習算法是線性判別分析（Fisher's Linear Discriminant Analysis，LDA）。算法

簡要來講，LDA的基本想法是使不一樣的樣本儘可能原理，使同類樣本儘可能靠近。segmentfault

這一目標能夠經過擴大不一樣類樣本的類中心距離，同時縮小每一個類的類內方差來實現。函數

在一個二分類數據集上，分別記全部正樣本的的均值爲$\\mu_+$，協方差矩陣爲$\\Sigma_+$；全部負樣本的的均值爲$\\mu_-$，協方差矩陣爲$\\Sigma_-$。學習

類間距離

投影后的類中心間距離爲正類中心的投影點值減去負類投影點值：
$$S_B(w)=(w^T\mu_+-w^T\mu_-)^2$$優化

類內距離

同時，類內方差可寫爲：
$$S_W(w)=\frac{\sum_x(w^Tx_i-w^T\mu_+)^2+\sum_x(w^Tx_i-w^T\mu_-)^2}{n-1}$$htm

$$=\frac{\sum_x(w^T(x_i-\mu_+))^2+\sum_x(w^T(x_i-\mu_-))^2}{n-1}$$blog

$$=\frac{\sum_xw^T(x_i-\mu_+)(w^T(x_i-\mu_+))^T+\sum_xw^T(x_i-\mu_-)(w^T(x_i-\mu_-))^T}{n-1}$$文檔

$$=\frac{w^T\sum_x(x_i-\mu_+)(x_i-\mu_+)^Tw+w^T\sum_x(x_i-\mu_-)(x_i-\mu_-)^Tw}{n-1}$$get

其中
$$\frac{\sum_x(x_i-\mu_+)(x_i-\mu_+)^T}{n-1} = \Sigma_+$$
是正類的協方差矩陣，注意
$$x(x_i-\mu_+)$$
是列向量，因此協方差是一個長寬等於數據維度的方陣。

最後：

$$S_W(w)=w^T\Sigma_+w+w^T\Sigma_-w$$

優化目標

線性判別式的總目標就是最大化類間距離，最小化類內方差，相似於聚類：

$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{S_B(w)}{S_W(w)}$$

$$=\frac{(w^T\mu_+-w^T\mu_-)^2}{w^T\Sigma_+w+w^T\Sigma_-w}$$

$$= \frac{w^T(\mu_+-\mu_-)(w^T(\mu_+-\mu_-))^T}{w^T(\Sigma_+-\Sigma_-)w}$$

$$= \frac{w^T(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw}{w^T(\Sigma_+-\Sigma_-)w}$$

看到這個形式，咱們根據上一篇文檔的知識知道這個可使用廣義瑞利商來求極大值。

廣義瑞利商

**背景介紹及推導見(瑞利商（Rayleigh quotient）與廣義瑞利商（genralized Rayleigh quotient）
**
下面只摘抄一些：

廣義瑞利商是指這樣的函數$𝑅(𝐴,𝐵,𝑥)$:
$$R(A,B,x) = \cfrac{X^{H}Ax}{X^{H}Bx}$$
其中𝑥爲非零向量，而𝐴,𝐵爲$𝑛×𝑛$的Hermitan矩陣。𝐵爲正定矩陣。

令
$$A=(\mu_+-\mu_-)(\mu_+-\mu_-)^T$$

$$B= \Sigma_+-\Sigma_- $$

$$ \mathop{\arg\max}\limits_{w} J(w) = \frac{w^TAw}{w^TBw}$$

這個就很廣義瑞利商了。

至於w的值，使用拉格朗日乘子法能夠求解獲得：

$$B^{-1}Aw = \lambda w$$

$$B^{-1}(\mu_+-\mu_-)(\mu_+-\mu_-)^Tw = \lambda w$$

因爲
$$(\mu_+-\mu_-)^Tw$$
是行向量乘列向量，因此結果是一個標量，
那咱們知道：
$$B^{-1}(\mu_+-\mu_-) \propto \lambda w$$

$$(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-) \propto w$$

因爲w咱們只關注方向而不是長度，因此能夠認爲：

$$w_{best} =(\Sigma_+-\Sigma_-)^{-1}(\mu_+-\mu_-)$$

教科書上的LDA爲何長這樣？
線性判別分析LDA原理總結

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。