聚類算法評價指標
聚類性能度量可以分爲兩類:
- 一類是將聚類結果與某個「參考模型」進行比較,稱爲「外部指標」(external index)
- 一類是直接考察聚類結果而不利用任何參考模型,稱爲「內部指標」(internal index)
對於
外部指標
對數據集
D={x1,x2,...,xm}
,假定通過聚類算法將樣本局爲
C={C1,C2,...Ck}
,將參考模型給出的簇劃分爲
C∗={C∗1,C∗2,...,C∗S}
。
相應的,另
λ
與
λ∗
分別表示與
C
和
C∗
對應的簇標記向量。將樣本兩兩配對考慮,有如下定義:
a=|S1|,S1={(xi,xj)|λi=λj,λ∗i=λ∗j,i<j}
b=|S2|,S2={(xi,xj)|λi=λj,λ∗i≠λ∗j,i<j}
c=|S3|,S3={(xi,xj)|λi≠λj,λ∗i=λ∗j,i<j}
d=|S4|,S4={(xi,xj)|λi≠λj,λ∗i≠λ∗j,i<j}
其中:
集合
S1
表示包含了在
C
中屬於相同的簇並且在
C∗
中也屬於相同的簇的樣本;
集合
S2
表示包含了在
C
中屬於相同的簇但在
C∗
中不屬於相同的簇的樣本;
……以此類推……
對每個樣本對
(xi,xj)(i<j)
僅能出現在一個集合中,因此有
a+b+c+d=C2m=m(m−1)2
基於以上定義,對無監督聚類算法的聚類結果有如下性能度量指標:
- Jaccard係數(accard Coefficient,JCI)
JCI=aa+b+c
所有屬於同一類的樣本對,同時在
C
,
C∗
中隸屬於同一類的樣本對的比例。
- FM指數(Fowlkes and Mallows Index,FMI)
FMI=aa+b·aa+c‾‾‾‾‾‾‾‾‾‾‾‾‾‾√
在
C
中屬於同一類的樣本對中,同時屬於
C
和
C∗
的樣本對的比例爲
p1
;在
C∗
中屬於同一類的樣本對中,同時屬於
C
和
C∗
的樣本對的比例爲
p2
,FMI就是
p1
和
p2
的幾何平均。
- Rand指數(Rand Index,RI)
RI=2(a+d)m(m−1)
很顯然,上述性能度量指標的取值都在
[0,1]
之間,並且取值越大越好。
-
內部指標
對於聚類結果
C={C1,C2,...,Ck}
,作如下定義:
avg(C)=2|C|(|C|−1)∑1⩽i⩽j⩽|C|dist(xi,xj)
diam(C)=max1⩽i⩽j⩽|C|dist(xi,xj)
dmin(Ci,Cj)=minxi∈Ci,xj∈Cjdist(xi,xj)
dcen(Ci,Cj)=dist(μi,μj)
其中
avg(C)
表示質心,
)
=
d
i
s
t
(
μi
,
μj
)