LDA線性判別分析原理

時間 2019-11-12

原文原文鏈接

這裏咱們就對另一種經典的降維方法線性判別分析（Linear Discriminant Analysis, 如下簡稱LDA）作一個總結。LDA在模式識別領域（好比人臉識別，艦艇識別等圖形圖像識別領域）中有很是普遍的應用，所以咱們有必要了解下它的算法原理。
在學習LDA以前，有必要將其天然語言處理領域的LDA區別開來，在天然語言處理領域， LDA是隱含狄利克雷分佈（Latent Dirichlet Allocation，簡稱LDA），他是一種處理文檔的主題模型。咱們本文只討論線性判別分析，所以後面全部的LDA均指線性判別分析。
1. LDA的思想
LDA是一種監督學習的降維技術，也就是說它的數據集的每一個樣本是有類別輸出的。這點和PCA不一樣。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想能夠用一句話歸納，就是「投影后類內方差最小，類間方差最大」。什麼意思呢？咱們要將數據在低維度上進行投影，投影后但願每一種類別數據的投影點儘量的接近，而不一樣類別的數據的類別中心之間的距離儘量的大。
可能仍是有點抽象，咱們先看看最簡單的狀況。假設咱們有兩類數據分別爲紅色和藍色，以下圖所示，這些數據特徵是二維的，咱們但願將這些數據投影到一維的一條直線，讓每一種類別數據的投影點儘量的接近，而紅色和藍色數據中心之間的距離儘量的大。算法

上圖中國提供了兩種投影方式，哪種能更好的知足咱們的標準呢？從直觀上能夠看出，右圖要比左圖的投影效果好，由於右圖的黑色數據和藍色數據各個較爲集中，且類別之間的距離明顯。左圖則在邊界處數據混雜。以上就是LDA的主要思想了，固然在實際應用中，咱們的數據是多個類別的，咱們的原始數據通常也是超過二維的，投影后的也通常不是直線，而是一個低維的超平面。學習

在咱們將上面直觀的內容轉化爲能夠度量的問題以前，咱們先了解些必要的數學基礎知識，這些在後面講解具體LDA原理時會用到。blog

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。