經常使用的聚類算法及聚類算法評價指標

1. 典型聚類算法

1.1 基於劃分的方法

表明：kmeans算法算法

·指定k個聚類中心
·（計算數據點與初始聚類中心的距離）
·（對於數據點，找到最近的{i}ci(聚類中心)，將分配到{i}ci中）
·(更新聚類中心點，是新類別數值的均值點)
·（計算每一類的誤差）
·返回
返回第二步網絡

1.2 基於層次的方法

表明：CURE算法學習

·每一個樣本做爲單獨的一個類別
·
·合併,爲
·遍歷完本次樣本，合併成新的類別後，若存在多個類別，則返回第二步
·遍歷完本次樣本，合併成新的類別後，若全部樣本爲同一類別，跳出循環，輸出每層類別spa

1.3 基於網格的方法

表明：STING算法.net

·將數據集合X劃分多層網格結構，從某一層開始計算
·查詢該層網格間的屬性值，計算屬性值與閾值的關係，斷定網格間的相關狀況，不相關的網格不做考慮
·若是網格相關，則進入下一層的相關區域繼續第二步，直到下一層爲最底層
·返回相關網格結果對象

1.4 基於密度的方法

表明：DBSCAN算法教程

·輸入數據集合X，隨機選取一點，並找出這個點的全部高密度可達點
·遍歷此點的全部鄰域內的點，並尋找這些密度可達點，斷定某點鄰域內的點，並尋找這些點密度可達點，斷定某點的鄰域內的點數是否超過閾值點數，超過則構成核心點
·掃描數據集，尋找沒有被聚類的數據點，重複第二步
·輸出劃分的類，並輸出異常值點（不和其餘密度相連）資源

1.5 神經網絡的方法

表明：SOM算法博客

·數據集合，權重向量爲，，歸一化處理
·尋找獲勝的神經元，找到最小距離，對於每個輸入數據，找到與之最相匹配的節點
令爲爲的距離，更新權重：
·更新臨近節點，，其中表明學習率it

1.6 基於圖的聚類方法

表明：譜聚類算法

·計算鄰接矩陣，度矩陣，
·計算拉普拉及矩陣
·計算歸一化拉普拉斯矩陣
·計算的特徵值和特徵向量
·對Q矩陣進行聚類，獲得聚類結果

2. 聚類算法的評價指標

一個好的聚類方法能夠產生高品質簇，是的簇內類似度高，簇間類似度低。通常來講，評估聚類質量有兩個標準，內部質量評價指標和外部評價指標。

2.1 內部質量評價標準

內部評價指標是利用數據集的屬性特徵來評價聚類算法的優劣。經過計算整體的類似度，簇間平均類似度或簇內平均類似度來評價聚類質量。評價聚類效果的高低一般使用聚類的有效性指標，因此目前的檢驗聚類的有效性指標主要是經過簇間距離和簇內距離來衡量。這類指標經常使用的有CH（Calinski-Harabasz）指標等

CH指標

CH指標定義爲：

其中表示類間距離差矩陣的跡，表示類內離差矩陣的跡，是整個數據集的均值，是第個簇的均值，表明聚類個數，表明當前的類。值越大，聚類效果越好，主要計算簇間距離與簇內距離的比值

簇的凝聚度

簇內點對的平均距離反映了簇的凝聚度，通常使用組內偏差平方（SSE）表示：

簇的鄰近度

簇的鄰近度用組間平方和（SSB）表示，即簇的質心到簇內全部數據點的總平均值的距離的平方和

2.2 外部質量評價標準

外部質量評價指標是基於已知分類標籤數據集進行評價的，這樣能夠將原有標籤數據與聚類輸出結果進行對比。外部質量評價指標的理想聚類結果是：具備不一樣類標籤的數據聚合到不一樣的簇中，具備相同類標籤的數據聚合相同的簇中。外部質量評價準則一般使用熵，純度等指標進行度量。

熵：

簇內包含單個類對象的一種度量。對於每個簇，首先計算數據的類分佈，即對於簇，計算簇的成員屬於類的機率

其中表示簇中全部對象的個數，而是簇中類的對象個數。使用類分佈，用標準公式：

計算每一個簇的熵，其中K是類個數。簇集合的總熵用每一個簇的熵的加權和計算即：

其中是簇的個數，而是簇內數據點的總和

純度：

簇內包含單個類對象的另一種度量。簇的純度爲，而聚類總純度爲：

歡迎關注磐創博客資源彙總站：
http://docs.panchuang.net/

歡迎關注PyTorch官方中文教程站： http://pytorch.panchuang.net/