機器學習——幾種距離度量方法比較

時間 2019-11-12

標籤機器學習幾種距離度量方法比較简体版

原文原文鏈接

1. 歐氏距離(Euclidean Distance)

歐氏距離是最容易直觀理解的距離度量方法，咱們小學、初中和高中接觸到的兩個點在空間中的距離通常都是指歐氏距離。算法

二維平面上點a(x1,y1)與b(x2,y2)間的歐氏距離:

三維空間點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:

n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的歐氏距離（兩個n維向量）：

Matlab計算歐氏距離:

Matlab計算距離使用pdist函數。若X是一個m×n的矩陣，則pdist(X)將X矩陣每一行做爲一個n維行向量，而後計算這m個向量兩兩間的距離。機器學習

X=[1 1;2 2;3 3;4 4];
        d=pdist(X,'euclidean')
        d=
          1.4142    2.8284    4.2426    1.4142    2.8284    1.4142

2. 曼哈頓距離(Manhattan Distance)

顧名思義，在曼哈頓街區要從一個十字路口開車到另外一個十字路口，駕駛距離顯然不是兩點間的直線距離。這個實際駕駛距離就是「曼哈頓距離」。曼哈頓距離也稱爲「城市街區距離」(City Block distance)。ide

二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離：

n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的曼哈頓距離：

Matlab計算曼哈頓距離：函數

X=[1 1;2 2;3 3;4 4];
  d=pdist(X,'cityblock')
  d=
    2     4     6     2     4     2

3. 切比雪夫距離 (Chebyshev Distance)

國際象棋中，國王能夠直行、橫行、斜行，因此國王走一步能夠移動到相鄰8個方格中的任意一個。國王從格子(x1,y1)走到格子(x2,y2)最少須要多少步？這個距離就叫切比雪夫距離。學習

二維平面兩點a(x1,y1)與b(x2,y2)間的切比雪夫距離：

n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的切比雪夫距離：

Matlab計算切比雪夫距離：編碼

X=[1 1;2 2;3 3;4 4];
  d=pdist(X,'chebychev')
  d=
    1     2     3     1     2     1

4. 閔可夫斯基距離(Minkowski Distance)

閔氏距離不是一種距離，而是一組距離的定義，是對多個距離度量公式的歸納性的表述。idea

閔氏距離定義：
兩個n維變量a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的閔可夫斯基距離定義爲：

其中p是一個變參數：spa

當p=1時，就是曼哈頓距離；code

當p=2時，就是歐氏距離；orm

當p→∞時，就是切比雪夫距離。

所以，根據變參數的不一樣，閔氏距離能夠表示某一類/種的距離。

閔氏距離，包括曼哈頓距離、歐氏距離和切比雪夫距離都存在明顯的缺點。
e.g. 二維樣本(身高[單位:cm],體重[單位:kg]),現有三個樣本：a(180,50)，b(190,50)，c(180,60)。那麼a與b的閔氏距離（不管是曼哈頓距離、歐氏距離或切比雪夫距離）等於a與c的閔氏距離。但實際上身高的10cm並不能和體重的10kg劃等號。
閔氏距離的缺點：
(1)將各個份量的量綱(scale)，也就是「單位」相同的看待了;
(2)未考慮各個份量的分佈（指望，方差等）多是不一樣的。

Matlab計算閔氏距離（以p=2的歐氏距離爲例）：

X=[1 1;2 2;3 3;4 4];
  d=pdist(X,'minkowski',2)
  d=
    1.4142    2.8284    4.2426    1.4142    2.8284    1.4142

5. 標準化歐氏距離 (Standardized Euclidean Distance)

定義：標準化歐氏距離是針對歐氏距離的缺點而做的一種改進。標準歐氏距離的思路：既然數據各維份量的分佈不同，那先將各個份量都「標準化」到均值、方差相等。假設樣本集X的均值(mean)爲m，標準差(standard deviation)爲s，X的「標準化變量」表示爲：

標準化歐氏距離公式：

若是將方差的倒數當作一個權重，也可稱之爲加權歐氏距離(Weighted Euclidean distance)。

Matlab計算標準化歐氏距離（假設兩個份量的標準差分別爲0.5和1）：

X=[1 1;2 2;3 3;4 4];
  d=pdist(X,'seuclidean',[0.5,1])
  d=
    2.2361    4.4721    6.7082    2.2361    4.4721    2.2361

6. 馬氏距離(Mahalanobis Distance)

馬氏距離的引出：

上圖有兩個正態分佈的整體，它們的均值分別爲a和b，但方差不同，則圖中的A點離哪一個整體更近？或者說A有更大的機率屬於誰？顯然，A離左邊的更近，A屬於左邊整體的機率更大，儘管A與a的歐式距離遠一些。這就是馬氏距離的直觀解釋。

概念：馬氏距離是基於樣本分佈的一種距離。物理意義就是在規範化的主成分空間中的歐氏距離。所謂規範化的主成分空間就是利用主成分分析對一些數據進行主成分分解。再對全部主成分分解軸作歸一化，造成新的座標軸。由這些座標軸張成的空間就是規範化的主成分空間。

定義：有M個樣本向量X1~Xm，協方差矩陣記爲S，均值記爲向量μ，則其中樣本向量X到μ的馬氏距離表示爲：

向量Xi與Xj之間的馬氏距離定義爲：

若協方差矩陣是單位矩陣（各個樣本向量之間獨立同分布），則Xi與Xj之間的馬氏距離等於他們的歐氏距離：

若協方差矩陣是對角矩陣，則就是標準化歐氏距離。

歐式距離&馬氏距離：

馬氏距離的特色：
量綱無關，排除變量之間的相關性的干擾；
馬氏距離的計算是創建在整體樣本的基礎上的，若是拿一樣的兩個樣本，放入兩個不一樣的整體中，最後計算得出的兩個樣本間的馬氏距離一般是不相同的，除非這兩個整體的協方差矩陣碰巧相同；
計算馬氏距離過程當中，要求整體樣本數大於樣本的維數，不然獲得的整體樣本協方差矩陣逆矩陣不存在，這種狀況下，用歐式距離計算便可。

Matlab計算馬氏距離：

X=[1 2;1 3;2 2;3 1];
  d=pdist(X,'mahal')
  d=
    2.3452    2.0000    2.3452    1.2247    2.4495    1.2247

7. 餘弦距離(Cosine Distance)

幾何中，夾角餘弦可用來衡量兩個向量方向的差別；機器學習中，借用這一律念來衡量樣本向量之間的差別。

二維空間中向量A(x1,y1)與向量B(x2,y2)的夾角餘弦公式：

兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夾角餘弦爲：

即：

夾角餘弦取值範圍爲[-1,1]。餘弦越大表示兩個向量的夾角越小，餘弦越小表示兩向量的夾角越大。當兩個向量的方向重合時餘弦取最大值1，當兩個向量的方向徹底相反餘弦取最小值-1。

Matlab計算夾角餘弦（Matlab中的pdist(X, ‘cosine’)獲得的是1減夾角餘弦的值）：

X=[1 1;1 2;2 5;1 -4];
  d=1-pdist(X,'cosine')
  d=
    0.9487    0.9191   -0.5145    0.9965   -0.7593   -0.8107

8. 漢明距離(Hamming Distance)

定義：兩個等長字符串s1與s2的漢明距離爲：將其中一個變爲另一個所須要做的最小字符替換次數。例如:

The Hamming distance between "1011101" and "1001001" is 2. 
  The Hamming distance between "2143896" and "2233796" is 3. 
  The Hamming distance between "toned" and "roses" is 3.

漢明重量：是字符串相對於一樣長度的零字符串的漢明距離，也就是說，它是字符串中非零的元素個數：對於二進制字符串來講，就是 1 的個數，因此 11101 的漢明重量是 4。所以，若是向量空間中的元素a和b之間的漢明距離等於它們漢明重量的差a-b。
應用：漢明重量分析在包括信息論、編碼理論、密碼學等領域都有應用。好比在信息編碼過程當中，爲了加強容錯性，應使得編碼間的最小漢明距離儘量大。可是，若是要比較兩個不一樣長度的字符串，不只要進行替換，並且要進行插入與刪除的運算，在這種場合下，一般使用更加複雜的編輯距離等算法。
Matlab計算漢明距離（Matlab中2個向量之間的漢明距離的定義爲2個向量不一樣的份量所佔的百分比）：
```
X=[0 1 1;1 1 2;1 5 2];
  d=pdist(X,'hamming')
  d=
    0.6667    1.0000    0.3333
```

9. 傑卡德距離(Jaccard Distance)

傑卡德類似係數(Jaccard similarity coefficient)：兩個集合A和B的交集元素在A，B的並集中所佔的比例，稱爲兩個集合的傑卡德類似係數，用符號J(A,B)表示：

傑卡德距離(Jaccard Distance)：與傑卡德類似係數相反，用兩個集合中不一樣元素佔全部元素的比例來衡量兩個集合的區分度：

Matlab計算傑卡德距離（Matlab中將傑卡德距離定義爲不一樣的維度的個數佔「非全零維度」的比例）：
```
X=[1 1 0;1 -1 0;-1 1 0];
  d=pdist(X,'jaccard')
  d=
    0.5000    0.5000    1.0000
```

10. 相關距離(Correlation distance)

相關係數：是衡量隨機變量X與Y相關程度的一種方法，相關係數的取值範圍是[-1,1]。相關係數的絕對值越大，則代表X與Y相關度越高。當X與Y線性相關時，相關係數取值爲1（正線性相關）或-1（負線性相關）：

相關距離：

Matlab計算相關係數與相關距離：

X=[1 2 3 4;3 8 7 6];
  c=corrcoef(X') %返回相關係數矩陣
  d=pdist(X,'correlation') %返回相關距離
  c=
    1.0000    0.4781
    0.4781    1.0000
  d=
    0.5219

11. 信息熵(Information Entropy)

以上的距離度量方法度量的皆爲兩個樣本（向量）之間的距離，而信息熵描述的是整個系統內部樣本之間的一個距離，或者稱之爲系統內樣本分佈的集中程度（一致程度）、分散程度、混亂程度（不一致程度）。系統內樣本分佈越分散(或者說分佈越平均)，信息熵就越大。分佈越有序（或者說分佈越集中），信息熵就越小。

信息熵的由來：請參考博客：XXXXXXXX。
計算給定的樣本集X的信息熵的公式：

參數的含義：

n：樣本集X的分類數

pi：X中第 i 類元素出現的機率

信息熵越大代表樣本集S的分佈越分散（分佈均衡），信息熵越小則代表樣本集X的分佈越集中（分佈不均衡）。當S中n個分類出現的機率同樣大時（都是1/n），信息熵取最大值log2(n)。當X只有一個分類時，信息熵取最小值0。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。