【轉】關於Mahalanobis距離的筆記

Mahalanobis距離是用來度量一個點P和一個分佈D之間的距離,它是衡量點P與分佈D的均值之間存在多少個標準差的一個多維泛化版本。
若是P就位於分佈D的均值處,則該距離爲0;該距離隨着P的偏離均值開始逐步增大。

由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的類似度的方法。與歐氏距離不一樣的是它考慮到各類特性之間的聯繫(例如:一條關於身高的信息會帶來一條關於體重的信息,由於二者是有關聯的)而且是尺度無關的(scale-invariant),即獨立於測量尺度。 對於一個均值爲\mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_p )^T協方差矩陣\Sigma的多變量向量x = ( x_1, x_2, x_3, \dots, x_p )^T,其馬氏距離爲php

D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x-\mu)}

馬氏距離也能夠定義爲兩個服從同一分佈而且其協方差矩陣爲\Sigma的隨機變量 \vec{x} \vec{y}的差別程度:ide

 d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^T\Sigma^{-1} (\vec{x}-\vec{y})}

若是協方差矩陣爲單位矩陣,馬氏距離就簡化爲歐氏距離;若是協方差矩陣爲對角陣,其也可稱爲正規化的歐氏距離idea

 d(\vec{x},\vec{y})=\sqrt{\sum_{i=1}^p  {(x_i - y_i)^2 \over \sigma_i^2}}

其中\sigma_ix_i標準差spa


 

mahalanobis距離是基於樣本分佈的一種距離。物理意義就是在規範化的主成分空間中的歐氏距離。所謂規範化的主成分空間就是利用主成分分析對一些數據進行主成分分解。再對全部主成分分解軸作歸一化,造成新的座標軸。由這些座標軸張成的空間就是規範化的主成分空間。
換句話說,主成分分析就是把橢球分佈的樣本改變到另外一個空間裏,使其成爲球狀分佈。而mahalanobis距離就是在樣本呈球狀分佈的空間裏面所求得的Euclidean距離。
固然,上面的解釋只是對橢球分佈而言,對通常分佈,只能消除分佈的二階相關性,而不能消除高階相關性。










相關文章
相關標籤/搜索