馬氏距離與異常點檢測

定義

馬氏距離的定義相關資料太多了,我這裏直接截圖維基百科上的定義。
函數

特色

馬氏距離具備如下特色:3d

  • 馬氏距離不受量綱的影響,兩點之間的馬氏距離與原始數據的測量單位無關,即獨立於測量尺度。採用數據預處理中的標準化和中心化等方法所得到的馬氏距離相同;
  • 馬氏距離具備放大變化微小的變量的做用,這對於化學指紋圖譜的分析而言是有利的特色;
  • 馬氏距離在計算中考慮了各自變量之間的線性相關關係,所以能夠排除變量之間相關性的干擾;
  • 馬氏距離可用於鑑別離羣值。一個馬氏距離較大的樣本必然是一個離羣值;
  • 應用馬氏距離的前提是各自變量均應符合正態分佈。

馬氏距離與歐氏距離的主要區別點在於:blog

  • 歐氏距離有量綱,將各自變量的差異同等對待;馬氏距離無量綱;
  • 歐氏距離不考慮變量間的相關性,馬氏距離根據協方差矩陣消除了相關性;
  • 若是協方差矩陣爲單位矩陣,則馬氏距離就簡化爲歐氏距離;

意義

上面的內容,不少博客也總結過了。其實看完後對馬氏距離並無一個很直觀的認識。這裏總結一下馬氏距離的意義和解釋爲何馬氏距離比歐式距離更好的檢測異常點。這裏的內容主要總結自如何理解馬氏距離,多維Mahalanobis距離是否要用到「互相關張量」來進行描述?get

歐式距離是定義在兩個點之間,維度的多少,不會使得歐式距離更復雜。歐氏距離認爲多維空間是各向相同的,往哪一個方向走,意義都同樣。博客

馬氏距離認爲各向是異向的。而各向異性的具體參數,由一個協方差矩陣表示。能夠把直觀協方差矩陣當成一個多維正太分佈的協方差陣,那麼這個分佈的密度函數的等高線,就是等高線常見的橢圓。從橢圓中心到橢圓上各個方向的點的馬氏距離,都是相等的。io

其中,橢圓的各個軸的方向,是協方差矩陣的特徵向量。各個軸的長度正比於協方差矩陣的特徵值的平方根。變量

下面用一個圖來講明一下。方法

左下角在二維空間中由一個分佈產生的方塊樣本,這個分佈的一條等高線如虛線的橢圓框所示,圖中還有一個不屬於該分佈的圓圈樣本。這是是一個典型的歐式距離會把分佈外樣本算的更近的例子,好比把綠色和藍色樣本單拎出來,就是左上角的圖,藍色小圓圈和中心的綠色方塊更近了,這是由於單純的歐式距離沒法反應方塊的分佈。這種狀況下,考慮用馬氏距離。這裏默認方塊的分佈能夠由協方差矩陣很好描述。這樣計算出的距離就像說的同樣再也不是各向同性,對於方塊的分佈而言有個良好性質是分佈的等高線上到中心的馬氏距離相等了,由於馬氏距離包含了方塊自己分佈的信息。im

進一步來理解,馬氏距離能夠表示爲下面這樣:總結

其實等效於作了個線性變換,而後在變換後的空間中求了下歐式距離。

相關文章
相關標籤/搜索