這裏咱們就對另一種經典的降維方法線性判別分析(Linear Discriminant Analysis, 如下簡稱LDA)作一個總結。LDA在模式識別領域(好比人臉識別,艦艇識別等圖形圖像識別領域)中有很是普遍的應用,所以咱們有必要了解下它的算法原理。
在學習LDA以前,有必要將其天然語言處理領域的LDA區別開來,在天然語言處理領域, LDA是隱含狄利克雷分佈(Latent Dirichlet Allocation,簡稱LDA),他是一種處理文檔的主題模型。咱們本文只討論線性判別分析,所以後面全部的LDA均指線性判別分析。
1. LDA的思想
LDA是一種監督學習的降維技術,也就是說它的數據集的每一個樣本是有類別輸出的。這點和PCA不一樣。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想能夠用一句話歸納,就是「投影后類內方差最小,類間方差最大」。什麼意思呢? 咱們要將數據在低維度上進行投影,投影后但願每一種類別數據的投影點儘量的接近,而不一樣類別的數據的類別中心之間的距離儘量的大。
可能仍是有點抽象,咱們先看看最簡單的狀況。假設咱們有兩類數據 分別爲紅色和藍色,以下圖所示,這些數據特徵是二維的,咱們但願將這些數據投影到一維的一條直線,讓每一種類別數據的投影點儘量的接近,而紅色和藍色數據中心之間的距離儘量的大。算法
上圖中國提供了兩種投影方式,哪種能更好的知足咱們的標準呢?從直觀上能夠看出,右圖要比左圖的投影效果好,由於右圖的黑色數據和藍色數據各個較爲集中,且類別之間的距離明顯。左圖則在邊界處數據混雜。以上就是LDA的主要思想了,固然在實際應用中,咱們的數據是多個類別的,咱們的原始數據通常也是超過二維的,投影后的也通常不是直線,而是一個低維的超平面。學習
在咱們將上面直觀的內容轉化爲能夠度量的問題以前,咱們先了解些必要的數學基礎知識,這些在後面講解具體LDA原理時會用到。blog