譜聚類（Spectral Clustring）原理

時間 2019-11-18

標籤 spectral clustring 原理简体版

原文原文鏈接

　譜聚類（spectral clustering）是普遍使用的聚類算法，比起傳統的K-Means算法，譜聚類對數據分佈的適應性更強，聚類效果也很優秀，同時聚類的計算量也小不少，更加難能難得的是實現起來也不復雜。在處理實際的聚類問題時，我的認爲譜聚類是應該首先考慮的幾種算法之一。下面咱們就對譜聚類的算法原理作一個總結。html

1. 譜聚類概述

　　譜聚類是從圖論中演化出來的算法，後來在聚類中獲得了普遍的應用。它的主要思想是把全部的數據看作空間中的點，這些點之間能夠用邊鏈接起來。距離較遠的兩個點之間的邊權重值較低，而距離較近的兩個點之間的邊權重值較高，經過對全部數據點組成的圖進行切圖，讓切圖後不一樣的子圖間邊權重和儘量的低，而子圖內的邊權重和儘量的高，從而達到聚類的目的。算法

　　乍一看，這個算法原理的確簡單，可是要徹底理解這個算法的話，須要對圖論中的無向圖，線性代數和矩陣分析都有必定的瞭解。下面咱們就從這些須要的基礎知識開始，一步步學習譜聚類。函數

2. 譜聚類基礎之一：無向權重圖

　　因爲譜聚類是基於圖論的，所以首先溫習下圖的概念。對於一個圖 $G$ 學習

　　對於有邊鏈接的兩個點 $v_{i}$ $d_{i} = \sum_{j = 1}^{n} w_{i j}$ 優化

$v_{i}$

　　利用每一個點度的定義，咱們能夠獲得一個nxn的度矩陣 $D$ atom

$D$

　　利用全部點之間的權重值，咱們能夠獲得圖的鄰接矩陣 $W$ spa

　　除此以外，對於點集 $V$ .net

$V$ $| A | := 子集 A 中点的个数$ 3d

v o l (A) := \sum i \in A d i

3. 譜聚類基礎之二：類似矩陣

　　在上一節咱們講到了鄰接矩陣 $W$ orm

　　基本思想是，距離較遠的兩個點之間的邊權重值較低，而距離較近的兩個點之間的邊權重值較高，不過這僅僅是定性，咱們須要定量的權重值。通常來講，咱們能夠經過樣本點距離度量的類似矩陣 $S$

　　構建鄰接矩陣 $W$

　　對於 $ϵ$

　　從上式可見，兩點間的權重要不就是 $ϵ$

　　第二種定義鄰接矩陣 $W$

　　第一種K鄰近法是隻要一個點在另外一個點的K近鄰中，則保留 $S_{i j}$

　　第二種K鄰近法是必須兩個點互爲K近鄰中，才能保留 $S_{i j}$

$S_{i j}$

　　第三種定義鄰接矩陣 $W$

在實際的應用中，使用第三種全鏈接法來創建鄰接矩陣是最廣泛的，而在全鏈接法中使用高斯徑向核RBF是最廣泛的。

4. 譜聚類基礎之三：拉普拉斯矩陣

　　單獨把拉普拉斯矩陣(Graph Laplacians)拿出來介紹是由於後面的算法和這個矩陣的性質息息相關。它的定義很簡單，拉普拉斯矩陣 $L = D - W$

　　拉普拉斯矩陣有一些很好的性質以下：

　　1）拉普拉斯矩陣是對稱矩陣，這能夠由 $D$

　　2）因爲拉普拉斯矩陣是對稱矩陣，則它的全部的特徵值都是實數。

　　3）對於任意的向量 $f$

$f$

　　這個利用拉普拉斯矩陣的定義很容易獲得以下：

$f^{T} L f = f^{T} D f - f^{T} W f = \sum_{i = 1}^{n} d_{i} f_{i}^{2} - \sum_{i, j = 1}^{n} w_{i j} f_{i} f_{j}$

5. 譜聚類基礎之四：無向圖切圖

　　對於無向圖 $G$

　　對於任意兩個子圖點的集合 $A, B \subset V$

　　那麼對於咱們k個子圖點的集合： $A_{1}, A_{2}, . . A_{k}$

　　爲

　　那麼如何切圖可讓子圖內的點權重和高，子圖間的點權重和低呢？一個天然的想法就是最小化 $c u t (A_{1}, A_{2}, . . . A_{k})$

　　咱們選擇一個權重最小的邊緣的點，好比C和H之間進行cut，這樣能夠最小化 $c u t (A_{1}, A_{2}, . . . A_{k})$

6. 譜聚類之切圖聚類

　　爲了不最小切圖致使的切圖效果不佳，咱們須要對每一個子圖的規模作出限定，通常來講，有兩種切圖方式，第一種是RatioCut，第二種是Ncut。下面咱們分別加以介紹。

6.1 RatioCut切圖

　　RatioCut切圖爲了不第五節的最小切圖，對每一個切圖，不光考慮最小化 $c u t (A_{1}, A_{2}, . . . A_{k})$

$c u t (A_{1}, A_{2}, . . . A_{k})$

　　那麼怎麼最小化這個RatioCut函數呢？牛人們發現，RatioCut函數能夠經過以下方式表示。

　　咱們引入指示向量 $h_{j} = {h_{1}, h_{2}, . . h_{k}} j = 1, 2, . . . k$

　　那麼咱們對於 $h_{i}^{T} L h_{i}$

　　上述第（1）式用了上面第四節的拉普拉斯矩陣的性質3. 第二式用到了指示向量的定義。能夠看出，對於某一個子圖i，它的RatioCut對應於 $h_{i}^{T} L h_{i}$

其中 t r (H T L H)

注意到咱們H矩陣裏面的每個指示向量都是n維的，向量中每一個變量的取值爲0或者 1/ \sqrt

　　注意觀察 $t r (H^{T} L H)$

　　對於 $h_{i}^{T} L h_{i}$

　　經過找到L的最小的k個特徵值，能夠獲得對應的k個特徵向量，這k個特徵向量組成一個nxk維度的矩陣，即爲咱們的H。通常須要對H矩陣按行作標準化，即　　

　　因爲咱們在使用維度規約的時候損失了少許信息，致使獲得的優化後的指示向量h對應的H如今不能徹底指示各樣本的歸屬，所以通常在獲得nxk維度的矩陣H後還須要對每一行進行一次傳統的聚類，好比使用K-Means聚類.

　　☆☆☆對H進行聚類的緣由：

　　1.注意到H除了是能知足極小化條件的解，仍是L的特徵向量，也能夠理解爲W的特徵向量，而W則是咱們構造出的圖，對該圖的特徵向量作聚類，一方面聚類時不會丟失原圖太多信息，另外一方面是降維加快計算速度，並且容易發現圖背後的模式。

　　2.因爲以前定義的指示向量 $h_{i}$

6.2 Ncut切圖

　　Ncut切圖和RatioCut切圖很相似，可是把Ratiocut的分母 $| A i |$

$| A i |$

　　對應的，Ncut切圖對指示向量 $h$

　　那麼咱們對於 $h_{i}^{T} L h_{i}$

　　推導方式和RatioCut徹底一致。也就是說，咱們的優化目標仍然是

　　可是此時咱們的 $H^{T} H \neq I$

也就是說，此時咱們的優化目標最終爲：

此時咱們的H中的指示向量

　　咱們令 $H = D^{- 1 / 2} F$

$H = D^{- 1 / 2} F$

　　能夠發現這個式子和RatioCut基本一致，只是中間的L變成了 $D^{- 1 / 2} L D^{- 1 / 2}$

　　　　通常來講， $D^{- 1 / 2} L D^{- 1 / 2}$

7. 譜聚類算法流程

　　鋪墊了這麼久，終於能夠總結下譜聚類的基本流程了。通常來講，譜聚類主要的注意點爲類似矩陣的生成方式（參見第二節），切圖的方式（參見第六節）以及最後的聚類方法（參見第六節）。

　　　　最經常使用的類似矩陣的生成方式是基於高斯核距離的全鏈接方式，最經常使用的切圖方式是Ncut。而到最後經常使用的聚類方法爲K-Means。下面以Ncut總結譜聚類算法流程。

　　　　輸入：樣本集D= $(x_{1}, x_{2}, . . ., x_{n})$

　　　　輸出：簇劃分 $C (c_{1}, c_{2}, . . . c_{k_{2}})$

　　　　1) 根據輸入的類似矩陣的生成方式構建樣本的類似矩陣S

　　　　2）根據類似矩陣S構建鄰接矩陣W，構建度矩陣D

　　　　3）計算出拉普拉斯矩陣L

　　　　4）構建標準化後的拉普拉斯矩陣 $D^{- 1 / 2} L D^{- 1 / 2}$

　　　　5）計算 $D^{- 1 / 2} L D^{- 1 / 2}$

　　　　6) 將各自對應的特徵向量 $f$

　　　　7）對F中的每一行做爲一個 $k_{1}$

　　　　8）獲得簇劃分 $C (c_{1}, c_{2}, . . . c_{k_{2}})$

8. 譜聚類算法總結

　　譜聚類算法是一個使用起來簡單，可是講清楚卻不是那麼容易的算法，它須要你有必定的數學基礎。若是你掌握了譜聚類，相信你會對矩陣分析，圖論有更深刻的理解。同時對降維裏的主成分分析也會加深理解。

　　　　下面總結下譜聚類算法的優缺點。

　　　　譜聚類算法的主要優勢有：

　　　　1）譜聚類只須要數據之間的類似度矩陣，所以對於處理稀疏數據的聚類頗有效。這點傳統聚類算法好比K-Means很難作到

　　　　2）因爲使用了降維，所以在處理高維數據聚類時的複雜度比傳統聚類算法好。

　　　　譜聚類算法的主要缺點有：

　　　　1）若是最終聚類的維度很是高，則因爲降維的幅度不夠，譜聚類的運行速度和最後的聚類效果均很差。

　　　　2) 聚類效果依賴於類似矩陣，不一樣的類似矩陣獲得的最終聚類效果可能很不一樣。

本文內容轉載自：https://www.cnblogs.com/pinard/p/6221564.html

更詳盡可參考：https://blog.csdn.net/yc_1993/article/details/52997074

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。