機器學習是時下流行AI技術中一個很重要的方向,不管是有監督學習仍是無監督學習都使用各類「度量」來獲得不一樣樣本數據的差別度或者不一樣樣本數據的類似度。良好的「度量」能夠顯著提升算法的分類或預測的準確率,本文中將介紹機器學習中各類「度量」,「度量」主要由兩種,分別爲距離、類似度和相關係數,距離的研究主體通常是線性空間中點;而類似度研究主體是線性空間中向量;相關係數研究主體主要是分佈數據。本文主要介紹統計上的距離。算法
馬哈拉諾比斯距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯 (英語)提出的,表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的類似度的方法。與歐氏距離不一樣的是它考慮到各類特性之間的聯繫(例如:一條關於身高的信息會帶來一條關於體重的信息,由於二者是有關聯的)而且是尺度無關的,即獨立於測量尺度。對於一個均值爲u=(u1,u2,…, un),協方差爲Σ的分佈,多變量向量x=(x1, x2, …, xn)到此分佈的馬哈拉諾比斯距離爲:機器學習
\[{D_M}\left( x \right) = \sqrt {{{\left( {x - u\,} \right)}^T}{\Sigma ^{ - 1}}\left( {x - u} \right)} \]學習
馬哈拉諾比斯距離在某些狀況下比歐幾里得距離更符合實際,如圖8所示:從二元正態分佈中疊加100個隨機抽取的散點圖的等值線圖,這個二元正態分佈是均值爲(0,0),每一個維度方差爲1,且相關係數爲0.5的二元正態分佈。正態分佈的質心點用藍色表示,三個興趣點分別爲橙色方塊、紅色三角形和紫色圓圈。
計算三個興趣點和質心點的歐幾里得距離可知橙色方塊<紫色圓圈<紅色三角形,但從數據分佈來看紅色三角形從統計分佈意義上應該比紫色圓圈更靠近藍色質心點。所以歐幾里得距離在這裏就失效了,若是咱們用馬哈拉諾比斯距離計算三個興趣點和質心點的距離,可得橙色方塊的馬哈拉諾比斯距離爲0.94,紅色三角形的馬哈拉諾比斯距離爲0.04,紫色圓圈馬哈拉諾比斯距離<0.01,那麼三個興趣點和藍色質心點距離排序應該是橙色方塊<紅色三角形<紫色圓圈。spa
巴塔恰裏雅距離 (Bhattacharyya distance)。在統計學中,巴塔恰裏雅距離測量兩個機率分佈的類似性。 它與巴塔恰裏雅係數密切相關,巴塔恰裏雅係數是兩個統計樣本或羣體之間重疊量的度量。此距離以1930年代在印度統計研究所工做的統計學家Anil Kumar Bhattacharya的名字命名。對於數據集X上兩個機率分佈p和q, 若數據集X對應的是離散分佈它們的巴塔恰裏雅距離定義爲orm
\[ {D_B}\left( {p,q} \right) = - \ln \left( {\sum\limits_{x \in X} {\sqrt {p\left( x \right)q\left( x \right)} } } \right)\]blog
若數據集X對應的是連續分佈,它們的巴塔恰裏雅距離定義爲排序
\[{D_B}\left( {p,q} \right) = - \ln \left( {\int {\sqrt {p\left( x \right)q\left( x \right)} dx} } \right)\]ip
巴塔恰裏雅距離可用於肯定所考慮的兩個樣本的相對接近程度。 它用於測量分類中類別的可分性,而且被認爲比巴塔恰裏雅距離更可靠,由於當兩個類別的標準誤差相同時,馬哈拉諾比斯距離(見2.2章)是巴塔恰裏雅距離距離的特定狀況。所以,當兩個類具備類似的平均值但標準誤差不一樣時,馬哈拉諾比斯距離將趨向於零,而巴塔恰裏雅距離則根據標準誤差之間的差別而增加。it