聚類算法的衡量指標

聚類算法的衡量指標

混淆矩陣

con = confusion_matrix(y_test,y_pred) import matplotlib.pyplot as plt cmap = plt.cm.get_cmap('RdYlBu') plt.imshow(con,cmap = cmap) plt.show()

均一性

一個簇中只包含一個類別的樣本,則知足均一性;其實也能夠認爲就是正確率(每一個聚簇中正確分類的樣本數佔該聚簇總樣本數的比例和):算法

 

完整性

同類別樣本被歸類到相同簇中,則知足完整性;每一個聚簇中正確分類的樣本數佔該類型的總樣本數比例的和:spa

 

V-measure

均一性和完整性的加權平均:3d

 

調整蘭德係數(ARI)

Rand index(蘭德指數)(RI),RI取值範圍爲[0,1],值越大意味着聚類結果與真實狀況越吻合:code

 

其中C表示實際類別信息,K表示聚類結果,a表示在C與K中都是同類別的元素對數 ,b表示在C與K中都是不一樣類別的元素對數,c_2^n 表示數據集中能夠組成的對數orm

調整蘭德係數(ARI,Adjusted Rnd Index),ARI取值範圍[-1,1],值越大,表示聚類 結果和真實狀況越吻合。從廣義的角度來將,ARI是衡量兩個數據分佈的吻合程度的。blog

 

調整互信息(AMI)

調整互信息(AMI,Adjusted Mutual Information),相似ARI,內部使用信息熵:get

 

輪廓係數(Silhouette)

簇內不類似度:計算樣本i到同簇其它樣本的平均距離爲ai;ai越小,表示樣本i越應該被聚類到該簇,簇C中的全部樣本的ai的均值被稱爲簇C的簇不類似度。io

簇間不類似度:計算樣本i到其它簇Cj的全部樣本的平均距離bij,bi=min{bi1,bi2,...,bik};bi越大,表示樣本i越不屬於其它簇。form

輪廓係數:si值越接近1表示樣本i聚類越合理,越接近-1,表示樣本i應該分類到另外的簇中,近似爲0,表示樣本i應該在邊界上;全部樣本的si的均值被成爲聚類結果的輪廓係數。class

 

相關文章
相關標籤/搜索