機器學習中的度量—— 向量距離

      機器學習是時下流行AI技術中一個很重要的方向,不管是有監督學習仍是無監督學習都使用各類「度量」來獲得不一樣樣本數據的差別度或者不一樣樣本數據的類似度。良好的「度量」能夠顯著提升算法的分類或預測的準確率,本文中將介紹機器學習中各類「度量」,「度量」主要由兩種,分別爲距離、類似度和相關係數,距離的研究主體通常是線性空間中點;而類似度研究主體是線性空間中向量;相關係數研究主體主要是分佈數據。本文主要介紹距離。算法

1 向量距離

1.1 歐式距離¬——從勾股定理而來

      讓我回憶一下中學時候學過的勾股定理,歷史悠久的勾股定理告訴了若是在一個直角三角形中兩條直角邊分別爲\(a\)\(b\),那麼斜邊\(c\)\(a\)\(b\)的關係必定知足\(c^{2} = a^{2} + b^{2}\)框架


圖1 勾股定理

圖2 成書於宋金時期《測圓海鏡》中的十五個勾股形

      從直觀上將,圖2中兩個點距離是藍線的長度,而使用勾股定理能夠計算出如圖2的兩個數據點之間距離。機器學習


圖3 可汗學院距離教程中樣例

      根據勾股定理很容易求出上面兩個點距離爲以下式子表示:ide

      這個最直觀的距離還有一個正式稱呼,歐幾里得距離(Euclidean distance),上面是二維空間中歐式距離,更爲通常的狀況爲:在笛卡爾座標系(Cartesian Coordinates)中若是點x = (x1, x2,..., xn) 和點 y = (y1, y2, ..., yn) 是兩個歐式空間的點,則點x和點y的歐式距離爲:學習

\[\begin{array}{l} {d_{Euclidean}}\left( {x,y} \right){\rm{ = }}{d_{Euclidean}}\left( {y,x} \right) = \sqrt {{{\left| {{x_1} - {y_1}} \right|}^2} + {{\left| {{x_2} - {y_2}} \right|}^2} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^2}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \; = \sqrt {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^2}} } \\ \end{array}\]idea

      笛卡爾座標系: 一種正交座標系。參閱圖4,二維的直角座標系是由兩條相互垂直、相交於原點的數線構成的。在平面內,任何一點的座標是根據數軸上對應的點的座標設定的spa


圖4 一個直角座標系

1.2 曼哈頓距離¬¬——行走在紐約曼哈頓街道上

      曼哈頓距離(Manhattan distance)是由十九世紀的赫爾曼·閔可夫斯基所創辭彙,用以標明兩個點上在標準座標系上的絕對軸距之總和。例如在平面上,座標(x1, x2)的點P1與座標(y1, y2)的點P2的曼哈頓距離爲:3d

\[\left| {{x_1} - {y_1}} \right| + \left| {{x_2} - {y_2}} \right|\]blog

      如圖所示爲曼哈頓與歐幾里得距離。由曼哈頓距離和歐式距離定義可知兩點曼哈頓距離爲12,其中紅、藍與黃線分別表示幾種不一樣曼哈頓距離;兩點的歐式距離爲6√2其中綠線表示惟一的歐幾里得距離。教程


圖5 曼哈頓與歐幾里得距離

圖6 到藍點的曼哈頓距離爲2的全部點構成的「單位圓」

      上面是二維空間中曼哈頓距離,更爲通常的狀況爲:在笛卡爾座標系中若是點x = (x1, x2,..., xn) 和點 y = (y1, y2, ..., yn) 是兩個歐式空間點,則點x和點y的曼哈頓距離爲:

\[\begin{array}{l} {d_{Manhat\tan }}\left( {x,y} \right){\rm{ = }}{d_{Manhat\tan }}\left( {y,x} \right) = \left| {{x_1} - {y_1}} \right| + \left| {{x_2} - {y_2}} \right| + \cdots + \left| {{x_n} - {y_n}} \right| \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\; = \sum\limits_{i = 1}^n {\left| {{x_i} - {y_i}} \right|} \\ \end{array}\]

1.3 切比雪夫距離——來下盤國際象棋吧

      切比雪夫距離(Chebyshev distance)或是向量空間中的一種度量,二個點之間的距離定義爲其各座標數值差的最大值]。切比雪夫距離得名自俄羅斯數學家切比雪夫。例如在平面上,座標(x1, x2)的點P1與座標(y1, y2)的點P2的切比雪夫距離爲:

\[\max \left( {\left| {{x_1} - {y_1}} \right|,\left| {{x_2} - {y_2}} \right|} \right)\]

      若將國際象棋棋盤放在二維直角座標系中,格子的邊長定義爲1,座標的x軸及y軸和棋盤方格平行,原點恰落在某一格的中心點,則王從一個位置走到其餘位置須要的步數恰爲二個位置的切比雪夫距離,所以切比雪夫距離也稱爲棋盤距離。因爲王能夠往斜前或斜後方向移動一格,所以能夠較有效率的到達目的的格子。例如位置F6和位置E2的切比雪夫距離爲4。任何一個不在棋盤邊緣的位置,和周圍八個位置的切比雪夫距離都是1。


圖7 國際象棋棋盤上二個位置間的切比雪夫距離

      上面是二維空間中切比雪夫距離,更爲通常狀況爲:在笛卡爾座標系中若是點x = (x1, x2,..., xn) 和點 y = (y1, y2, ..., yn) 是兩個歐式空間點,則點x和點y切比雪夫距離爲:

1.4 閔科夫斯基距離¬——大統一論

      閔科夫斯基距離(Minkowski distance)其實是歐式距離、曼哈頓距離、切比雪夫距離在笛卡爾座標系下的一種推廣,閔科夫斯基距離將上述因此距離都統一在一個框架中。在笛卡爾座標系中若是點x = (x1, x2,..., xn) 和點 y = (y1, y2, ..., yn)是兩個歐式空間點,則點x和點y的p階閔科夫斯基距離爲:

\[\begin{array}{l} {d_{p - Minkowski}}\left( {x,y} \right){\rm{ = }}{d_{p - Minkowski}}\left( {y,x} \right) = {\left( {{{\left| {{x_1} - {y_1}} \right|}^p} + {{\left| {{x_2} - {y_2}} \right|}^p} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^p}} \right)^{\frac{1}{p}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\; = {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^p}} } \right)^{\frac{1}{p}}} \\ \end{array}\]

      當p=1的時候,1階閔科夫斯基距離等價於曼哈度距離
\[\begin{array}{l} {d_{1 - Minkowski}}\left( {x,y} \right){\rm{ = }}{d_{1 - Minkowski}}\left( {y,x} \right) = {\left( {{{\left| {{x_1} - {y_1}} \right|}^1} + {{\left| {{x_2} - {y_2}} \right|}^1} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^1}} \right)^{\frac{1}{1}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \sum\limits_{i = 1}^n {\left| {{x_i} - {y_i}} \right|} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \left| {{x_1} - {y_1}} \right| + \left| {{x_2} - {y_2}} \right| + \cdots + \left| {{x_n} - {y_n}} \right| \\ \end{array}\]

      當p=2的時候,2階閔科夫斯基距離等價於歐幾里得距離
\[\begin{array}{l} {d_{2 - Minkowski}}\left( {x,y} \right){\rm{ = }}{d_{2 - Minkowski}}\left( {y,x} \right) = {\left( {{{\left| {{x_1} - {y_1}} \right|}^2} + {{\left| {{x_2} - {y_2}} \right|}^2} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^2}} \right)^{\frac{1}{2}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \sqrt {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^2}} } \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \sqrt {{{\left| {{x_1} - {y_1}} \right|}^2} + {{\left| {{x_2} - {y_2}} \right|}^2} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^2}} \\ \end{array}\]

      當p=∞的時候,∞階閔科夫斯基距離等價於車比雪夫距離
\[\begin{array}{l} {d_{\infty - Minkowski}}\left( {x,y} \right){\rm{ = }}{d_{\infty - Minkowski}}\left( {y,x} \right) = \mathop {\lim }\limits_{x \to \infty } {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^p}} } \right)^{\frac{1}{p}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \max \left( {\left| {{x_1} - {y_1}} \right|,\left| {{x_2} - {y_2}} \right|, \cdots ,\left| {{x_n} - {y_n}} \right|} \right) \\ \end{array}\]

相關文章
相關標籤/搜索