聚類 Cluster

聚類算法評價指標
聚類性能度量可以分爲兩類:

  • 一類是將聚類結果與某個「參考模型」進行比較,稱爲「外部指標」(external index)
  • 一類是直接考察聚類結果而不利用任何參考模型,稱爲「內部指標」(internal index)

對於
外部指標
對數據集 D = { x 1 , x 2 , . . . , x m } ,假定通過聚類算法將樣本局爲 C = { C 1 , C 2 , . . . C k } ,將參考模型給出的簇劃分爲 C = { C 1 , C 2 , . . . , C S }

相應的,另 λ λ 分別表示與 C C 對應的簇標記向量。將樣本兩兩配對考慮,有如下定義:

a = | S 1 | , S 1 = { ( x i , x j ) | λ i = λ j , λ i = λ j , i < j }
b = | S 2 | , S 2 = { ( x i , x j ) | λ i = λ j , λ i λ j , i < j }
c = | S 3 | , S 3 = { ( x i , x j ) | λ i λ j , λ i = λ j , i < j }
d = | S 4 | , S 4 = { ( x i , x j ) | λ i λ j , λ i λ j , i < j }
其中:
集合 S 1 表示包含了在 C 中屬於相同的簇並且在 C 中也屬於相同的簇的樣本;
集合 S 2 表示包含了在 C 中屬於相同的簇但在 C 中不屬於相同的簇的樣本;
……以此類推……

對每個樣本對 ( x i , x j ) ( i < j ) 僅能出現在一個集合中,因此有

a + b + c + d = C m 2 = m ( m 1 ) 2
基於以上定義,對無監督聚類算法的聚類結果有如下性能度量指標:

  • Jaccard係數(accard Coefficient,JCI)
    J C I = a a + b + c
    所有屬於同一類的樣本對,同時在 C , C 中隸屬於同一類的樣本對的比例。
  • FM指數(Fowlkes and Mallows Index,FMI)
    F M I = a a + b · a a + c
    C 中屬於同一類的樣本對中,同時屬於 C C 的樣本對的比例爲 p 1 ;在 C 中屬於同一類的樣本對中,同時屬於 C C 的樣本對的比例爲 p 2 ,FMI就是 p 1 p 2 的幾何平均。
  • Rand指數(Rand Index,RI)
    R I = 2 ( a + d ) m ( m 1 )
    很顯然,上述性能度量指標的取值都在 [ 0 , 1 ] 之間,並且取值越大越好。
    -

內部指標
對於聚類結果 C = { C 1 , C 2 , . . . , C k } ,作如下定義:

a v g ( C ) = 2 | C | ( | C | 1 ) 1 i j | C | d i s t ( x i , x j )
d i a m ( C ) = max 1 i j | C | d i s t ( x i , x j )
d m i n ( C i , C j ) = min x i C i , x j C j d i s t ( x i , x j )
d c e n ( C i , C j ) = d i s t ( μ i , μ j )
其中
a v g ( C ) 表示質心, ) = d i s t ( μi , μj ) d c e n ( C i , C j ) = d i s t ( μ i , μ j )
其中
a v g ( C ) 表示質心, | C | 表示簇內樣本的個數,即
相關文章
相關標籤/搜索