幾種常見距離算法小結

在數據挖掘的過程當中,只用用到了類似性(如物品之間的類似性、人之間的聚類等),就會涉及到距離的運用。怎樣選擇合適的距離,對最終數據挖掘的準確性很是關鍵。所以,這裏總結了比較經常使用幾種距離算法和經常使用的計算場景,供你們參考:算法

1. 歐拉距離網站

歐拉距離是最經典的一種距離算法,適用於求解兩點之間直線的距離,適用於各個向量標準統一的狀況,如各類藥品的使用量、商品的售銷量等。字符串

 

 

2. Pearson距離數據挖掘

Pearson是推薦時最經常使用的一種距離,對於評分、喜愛等用戶評判標準不同的時候特別有用。能夠化爲兩向量規範化後的乘積,其本質是兩個向量是否同升同降。效率

Pearson相關係數:變量

 

 

 

3. 傑卡德距離方法

傑卡德距離在求兩個集合的相交程度時比較有用,通常應用於布爾類型的向量中。應用場景,如兩首音樂的被共同喜歡的程度、兩我的性格的類似程度等im

 

 

4. 夾角餘弦距離總結

餘弦距離不關心向量的長度,而只關心向量的夾角餘弦。應用場景,如文本分類時,兩文本之間距離計算。數據

夾角餘弦距離比pearson距離更加嚴格。由於對於pearson來講,就算兩個向量之間有夾角,只要其同升同降,其person的相關係數是1,即距離爲0。

而對於夾角餘統來講,其距離是他們之間的夾角。

更通俗點來講,pearson距離跟向量之間是否同升同降有關係,而餘弦距離除了跟向量之間是否同升同降有關係外,還跟餘弦他們升降的程度有關。

 

 

5. 曼哈頓距離

曼哈頓距離,顧名思義,城市街區距離。主要應用場景,如棋盤、城市裏兩個點之間的距離等

 

 

6. 漢明距離

兩個字符串之間的距離,用於計算之間的類似度。應用場景如釣魚網站與正規網站之間類似程度、兩做文是否做弊等。

計算方法,把S1變成S2所須要進行替換的最小次數。

 

7. 馬氏距離

馬氏距離表示數據的協方差距離。馬氏距離與歐氏距離的不一樣之處在於,馬氏距離考慮了各個維度之間的聯繫(如身高與體重),而且獨立於測量尺度(米、千克等不一樣量綱)。

設多變量向量爲,多變量均值爲,協方差距陣爲,則馬氏距離爲:

能夠出,當協方差距陣爲單位距離時,馬氏距離退化爲歐氏距離。

8. 切比雪夫距離

國際象棋棋盤上二個位置間的切比雪夫距離是指王要從一個位子移至另外一個位子須要走的步數。因爲王能夠往斜前或斜後方向移動一格,所以能夠較有效率的到達目的的格子。

 

 

若二個向量或二個點p 、and q,其座標分別爲p_i及q_i,則二者之間的切比雪夫距離定義以下:

相關文章
相關標籤/搜索