聚類距離方法Clustering, Distance Methods

時間 2020-12-30

原文原文鏈接

聚類分析的基本目標是發現項目items/變量variables的自然分組natural grouping方法。

接近程度closeness或者相似性similarity/proximity
Euclidean distance 歐氏距離
$x'=[x_{1},x_{2},...,x_{p}]\quad,\quad y'=[y_{1},y_{2},...,y_{p}]$

$d(x,y)=\sqrt{(x-y)'(x-y)}$
statistical distance 統計距離
$d(x,y)=\sqrt{(x-y)'S^{-1}(x-y)}$
Hierarchical Clustering Methods 分層聚類方法
--------------·Linkage Method 連接法
1)single linkage 單連接法

將每個對象看成是一個類，我們的聚類從合併兩個最接近的項目開始：
$\min_{i,k}(d_{ik})=d_{53}=2$

對象5和3合併，形成聚類（35）。爲確定下一個聚類水平，我們需要得到聚類（35）與其餘對象1，2，4之間的距離，最近鄰近點的距離爲：
$d_{(35)1}=min{\{d_{31},d_{51}\}}=min{\{3,11\}}=3\\ d_{(35)2}=min{\{d_{32},d_{52}\}}=min{\{7,10\}}=7\\ d_{(35)4}=min{\{d_{34},d_{54}\}}=min{\{9,8\}}=8$

得到新的距離矩陣：

在這個距離陣中，各對聚類間最小距離爲 $d_{(35)1}=3$ ，於是我們將聚類1與（35）合併在一起得到下一個聚類（135）
$d_{(135)2}=min{\{d_{(35)2},d_{12}\}}=min{\{7,9\}}=7\\ d_{(135)4}=min{\{d_{(35)4},d_{14}\}}=min{\{8,6\}}=6$
我們得到下一個聚類水平的距離矩陣：

各對聚類之間最小最近鄰近點距離爲 $d_{42}=5$ ，於是我們將對象4和2合併，得到聚類（24）。
現在我們有兩個不同的聚類（135）和（24），它們的最近臨近點距離爲：
$d_{(135)(24)}=min{\{d_{(135)2},d_{(135)4}\}}=min{\{7,6\}}=6$

最終的距離陣變爲：

於是將聚類（135）和（24）合併，形成一個包含全部5個對象的聚類（12345），此時最近鄰近點距離爲6。

2)complete linkage 完全連接法

依舊首先得到聚類（35），但是接下來距離的計算方式爲：
$d_{(35)1}=max{\{d_{31},d_{51}\}}=mxa{\{3,11\}}=11\\ d_{(35)2}=max{\{d_{32},d_{52}\}}=max{\{7,10\}}=10\\ d_{(35)4}=max{\{d_{34},d_{54}\}}=max{\{9,8\}}=9$

於是距離陣修正爲：

下一次合併發生在兩個最相似的組2和4之間，得到一個新的聚類（24），距離的計算方式爲：
$d_{(24)(35)}=max{\{d_{2(35)},d_{4(35)}\}}=max{\{10,9\}}=10\\ d_{(24)1}=max{\{d_{21},d_{41}\}}=9$

於是距離陣修正爲：

下一次合併產生聚類（124）。
在最後階段，將組（35）和（124）合併成一個聚類（12345），距離水平爲：
$d_{(124)(35)}=max{\{d_{1(35)},d_{(24)(35)}\}}=11$
3）average linkage 平均連接法
我們仍從距離陣 $D=\{d_{ik}\}$ 中搜尋最接近/相似的對象開始，假定找到的是 $U、V$ ，將這兩個對象合併得到 $（UV）$ ，聚類 $（UV）$ 和 $W$ 之間的距離由下式確定：
$d_{(UV),W}=\frac{\sum\limits_{i}\sum\limits_{k}d_{ik}}{N_{(UV)}N_{W}}$

其中 $d_{ik}$ 爲聚類 $（UV）$ 中的第 $i$ 個對象與聚類 $W$ 中第 $k$ 個對象之間的距離， $N_{(UV)}$ 和 $N_{W}$ 分別爲 $(UV)$ 和 $W$ 中成員的個數。

Ward’s Hierarchical Clustering Method沃德的分層聚類法
建立在「聯合兩個聚類時「信息損失」最小」的這一想法基礎上。
信息損失表現爲ESS有所增大。
首先，給定聚類 $k$ ，令 $ESS_{k}$ 爲此聚類中每一個項目與類均值（中心點）的偏差平方和。若當前有 $K$ 個聚類，則定義 $ESS=ESS_{1}+ESS_{2}+...+ESS_{K}$ ，若某對聚類的合併使得 $ESS$ 增加最少（信息損失最少），則將這兩個聚類合併。最初，每個聚類僅由一個項目組成，因而如果有N個項目，則 $ESS_{k}=0，k=1,2,3...,N$ ，故 $ESS=0$ ；而在另一極端，當所有的聚類合併成由N個項目組成的組，則ESS的值爲：
$ESS=\sum\limits_{j=1}^{N}(x_{j}-\overline{x})'(x_{j}-\overline{x})$

其中 $x_{j}$ 爲與第 $j$ 個項目相聯繫的多元測量值，而 $\,\overline{x}$ 則爲總均值。

Nonhierarchical Clustering Methods: K-means Method
非分層聚類方法：K均值法

我們的目標是將這些項目分成 $K=2$ 個聚類，使每個聚類內部的項目之間的距離比分別屬於不同聚類的項目之間的距離小。
爲了實施 $K=2$ 均值法，我們將這些項目先隨意分成兩個聚類，如j=1∑N(xj−x)′(xj−x)

其中 $x_{j}$ 爲與第 $j$ 個項目相聯繫的多元測量值，而 $\,\overline{x}$ 則爲總均值。

Nonhierarchical Clustering Methods: K-means Method
非分層聚類方法：K均值法

我們的目標是將這些項目分成 $K=2$ 個聚類，使每個聚類內部的項目之間的距離比分別屬於不同聚類的項目之間的距離小。
爲了實施 $K=2$ 均值法，我們將這些項目先隨意分成兩個聚類，如 $(AB)$ 和 $(CD)$ ，然後計算這兩個聚類中心（均值）的座標 $(\overline{x}_{1},\overline{x}_{2})$ 。

考慮初始類 $(AB)$ 和 $(C D$ 爲與第 $j$ 個項目相聯繫的多元測量值，而 $\,\overline{x}$ 爲與第 $j$ 個項目相聯繫的多元測量值，而 $\,\overline{x}$ 則爲總均值。

Nonhierarchical Clustering Methods: K-means Method
非分層聚類方法：K均值法

我們的目標是將這些項目分成 $K=2$ 個聚類，使每個聚類內部的項目之間的距離比分別屬於不同聚類的項目之間的距離小。
爲了實施 $K=2$ 均值法，我們將這些項目先隨意分成兩個聚類，如 $(AB)$ 和 $(CD)$ ，然後計算這兩個聚類中心（均值）的座標 $(\overline{x}_{1},\overline{x}_{2})$ 。

考慮初始類 $(AB)$ 和 $(CD)$ ，中心座標分別是（2，2）和（-1，-2）。假如項目 $A$ 被移到組 $（CD）$ 中，則新的組爲 $（B）$ 和 $（ACD）$ 爲與第 $j$ 個項目相聯繫的多元測量值，而 $\,\overline{x}$

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

聚類 距離方法Clustering, Distance Methods

聚類距離方法Clustering, Distance Methods