經常使用的聚類算法及聚類算法評價指標

 

1. 典型聚類算法

1.1 基於劃分的方法

表明:kmeans算法算法

·指定k個聚類中心640?wx_fmt=png
·640?wx_fmt=png(計算數據點與初始聚類中心的距離)
·640?wx_fmt=png(對於數據點640?wx_fmt=png,找到最近的640?wx_fmt=png{i}ci(聚類中心),將640?wx_fmt=png分配到640?wx_fmt=png{i}ci中)
·640?wx_fmt=png(更新聚類中心點,640?wx_fmt=png是新類別數值的均值點)
·640?wx_fmt=png(計算每一類的誤差)
·640?wx_fmt=png返回640?wx_fmt=png
640?wx_fmt=png返回第二步網絡

1.2 基於層次的方法

表明:CURE算法學習

·每一個樣本做爲單獨的一個類別640?wx_fmt=png
·640?wx_fmt=png
·合併640?wx_fmt=png,640?wx_fmt=png640?wx_fmt=png
·遍歷完本次樣本,合併成新的類別後,若存在多個類別,則返回第二步
·遍歷完本次樣本,合併成新的類別後,若全部樣本爲同一類別,跳出循環,輸出每層類別spa

1.3 基於網格的方法

表明:STING算法.net

·將數據集合X劃分多層網格結構,從某一層開始計算
·查詢該層網格間的屬性值,計算屬性值與閾值的關係,斷定網格間的相關狀況,不相關的網格不做考慮
·若是網格相關,則進入下一層的相關區域繼續第二步,直到下一層爲最底層
·返回相關網格結果對象

1.4 基於密度的方法

表明:DBSCAN算法教程

·輸入數據集合X,隨機選取一點,並找出這個點的全部高密度可達點
·遍歷此點的全部640?wx_fmt=png鄰域內的點,並尋找這些密度可達點,斷定某點640?wx_fmt=png鄰域內的點,並尋找這些點密度可達點,斷定某點的640?wx_fmt=png鄰域內的點數是否超過閾值點數,超過則構成核心點
·掃描數據集,尋找沒有被聚類的數據點,重複第二步
·輸出劃分的類,並輸出異常值點(不和其餘密度相連)資源

1.5 神經網絡的方法

表明:SOM算法博客

·數據集合640?wx_fmt=png,權重向量爲640?wx_fmt=png640?wx_fmt=png,歸一化處理640?wx_fmt=png
·尋找獲勝的神經元,找到最小距離,對於每個輸入數據,找到與之最相匹配的節點
640?wx_fmt=png640?wx_fmt=png640?wx_fmt=png的距離,更新權重:640?wx_fmt=png
·更新臨近節點,640?wx_fmt=png,其中640?wx_fmt=png表明學習率it

1.6 基於圖的聚類方法

表明:譜聚類算法

·計算鄰接矩陣640?wx_fmt=png,度矩陣640?wx_fmt=png640?wx_fmt=png
·計算拉普拉及矩陣640?wx_fmt=png
·計算歸一化拉普拉斯矩陣640?wx_fmt=png
·計算640?wx_fmt=png的特徵值和特徵向量640?wx_fmt=png
·對Q矩陣進行640?wx_fmt=png聚類,獲得聚類結果

2. 聚類算法的評價指標

一個好的聚類方法能夠產生高品質簇,是的簇內類似度高,簇間類似度低。通常來講,評估聚類質量有兩個標準,內部質量評價指標和外部評價指標。

2.1 內部質量評價標準

內部評價指標是利用數據集的屬性特徵來評價聚類算法的優劣。經過計算整體的類似度,簇間平均類似度或簇內平均類似度來評價聚類質量。評價聚類效果的高低一般使用聚類的有效性指標,因此目前的檢驗聚類的有效性指標主要是經過簇間距離和簇內距離來衡量。這類指標經常使用的有CH(Calinski-Harabasz)指標等

CH指標

CH指標定義爲:
640?wx_fmt=png
其中640?wx_fmt=png表示類間距離差矩陣的跡,640?wx_fmt=png表示類內離差矩陣的跡,640?wx_fmt=png是整個數據集的均值,640?wx_fmt=png是第640?wx_fmt=png個簇640?wx_fmt=png的均值,640?wx_fmt=png表明聚類個數,640?wx_fmt=png表明當前的類。640?wx_fmt=png值越大,聚類效果越好,640?wx_fmt=png主要計算簇間距離與簇內距離的比值

簇的凝聚度

簇內點對的平均距離反映了簇的凝聚度,通常使用組內偏差平方(SSE)表示:
640?wx_fmt=png

簇的鄰近度

簇的鄰近度用組間平方和(SSB)表示,即簇的質心640?wx_fmt=png到簇內全部數據點的總平均值640?wx_fmt=png的距離的平方和

2.2 外部質量評價標準

外部質量評價指標是基於已知分類標籤數據集進行評價的,這樣能夠將原有標籤數據與聚類輸出結果進行對比。外部質量評價指標的理想聚類結果是:具備不一樣類標籤的數據聚合到不一樣的簇中,具備相同類標籤的數據聚合相同的簇中。外部質量評價準則一般使用熵,純度等指標進行度量。

熵:

簇內包含單個類對象的一種度量。對於每個簇,首先計算數據的類分佈,即對於簇640?wx_fmt=png,計算簇640?wx_fmt=png的成員屬於類640?wx_fmt=png的機率
640?wx_fmt=png
其中640?wx_fmt=png表示簇640?wx_fmt=png中全部對象的個數,而640?wx_fmt=png是簇640?wx_fmt=png中類640?wx_fmt=png的對象個數。使用類分佈,用標準公式:
640?wx_fmt=png
計算每一個簇640?wx_fmt=png的熵,其中K是類個數。簇集合的總熵用每一個簇的熵的加權和計算即:
640?wx_fmt=png
其中640?wx_fmt=png是簇的個數,而640?wx_fmt=png是簇內數據點的總和

純度:

簇內包含單個類對象的另一種度量。簇640?wx_fmt=png的純度爲640?wx_fmt=png,而聚類總純度爲:
640?wx_fmt=png

 

歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/

歡迎關注PyTorch官方中文教程站: http://pytorch.panchuang.net/

相關文章
相關標籤/搜索