模糊c均值聚類和k-means聚類的數學原理

時間 2019-11-05

標籤模糊均值 means 數學原理欄目 C&C++ 简体版

原文原文鏈接

摘要
前端

這篇博客是從一個網上下載的資料關於模糊c均值聚類和k-means均值聚類的數學方法衍生而來。我下載的那個文章討論的不是很清楚，還有一些錯誤的地方，有些直接給告終果，可是中間的數學推導沒有給出，我感受中間的數學推導應該是最精華的地方，上網搜發現網上對於這兩個算法的數學推導仍是不多的甚至是沒有，百度文庫有一篇，可是推導的是用窮舉找規律，數學的味道不是很濃厚。在這篇文章的基礎上，我增長了一些數學方面的理論推導，講的更加的詳細了一些，特別是在模糊c均值聚類的遞推公式的推導上，須要具備必定的數學功底。這是我一天的成果，就把這個記錄下來了啊，但願對你們有幫助，同時也能夠爲之後本身的複習作備份。算法其實很簡單，可是知其然並知其因此然卻很難。k-means的算法數學推導原理：http://9269309.blog.51cto.com/9259309/1864214算法

FCM聚類算法介紹網絡

FCM算法是一種基於劃分的聚類算法，它的思想就是使得被劃分到同一簇的對象之間類似度最大，而不一樣簇之間的類似度最小。模糊C均值算法是普通C均值算法的改進，普通C均值算法對於數據的劃分是硬性的，而FCM則是一種柔性的模糊劃分。在介紹FCM具體算法以前咱們先介紹一些模糊集合的基本知識。編輯器

模糊集基本知識^[21]ide

首先說明隸屬度函數的概念。隸屬度函數是表示一個對象x隸屬於集合A的程度的函數，一般記作μ_A(x)，其自變量範圍是全部可能屬於集合A的對象（即集合A所在空間中的全部點），取值範圍是[0,1]，即0<=函數

μ_A(x)<=1。μ_A(x)=1表示x徹底隸屬於集合A，至關於傳統集合概念上的x∈A。一個定義在空間X={x}上的隸屬度函數就定義了一個模糊集合A，或者叫定義在論域X={x}上的模糊子集。對於有限個對象x₁，x₂，……，x_n模糊集合能夠表示爲：性能

.............. (6.1)學習

有了模糊集合的概念，一個元素隸屬於模糊集合就不是硬性的了，在聚類的問題中，能夠把聚類生成的簇當作模糊集合，所以，每一個樣本點隸屬於簇的隸屬度就是[0，1]區間裏面的值。google

K均值聚類算法(HCM)介紹spa

K均值聚類，即衆所周知的C均值聚類，已經應用到各類領域。它的核心思想以下：算法把n個向量x_j(1,2…,n)分爲c個組G_i(i=1,2,…,c)，並求每組的聚類中心，使得非類似性（或距離）指標的價值函數（或目標函數）達到最小。當選擇歐幾里德距離爲組j中向量x_k與相應聚類中心c_i間的非類似性指標時，價值函數可定義爲：

.............. (6.2)

其中是組i內的價值函數。這樣J_i的值依賴於G_i的幾何特性和c_i的位置。

通常來講，可用一個通用距離函數d(x_k,c_i)代替組I中的向量x_k，則相應的總價值函數可表示爲：

........ (6.3)

爲簡單起見，這裏用歐幾里德距離做爲向量的非類似性指標，且總的價值函數表示爲（6.2）式。

劃分過的組通常用一個c×n的二維隸屬矩陣U來定義。若是第j個數據點x_j屬於組i，則U中的元素u_ij爲1；不然，該元素取0。一旦肯定聚類中心ci，可導出以下使式（6.2）最小u_ij：

(6.4)

重申一點，若是c_i是x_j的最近的聚類中心，那麼x_j屬於組i。因爲一個給定數據只能屬於一個組，因此隸屬矩陣U具備以下性質：

(6.5)

且

(6.6)

另外一方面，若是固定u_ij則使（6.2）式最小的最佳聚類中心就是組I中全部向量的均值：

， (6.7)

這裏|G_i|是第i個簇中元素對象的個數

爲便於批模式運行，這裏給出數據集x_i（1，2…，n）的K均值算法；該算法重複使用下列步驟，肯定聚類中心c_i和隸屬矩陣U：

步驟1：初始化聚類中心c_i,i=1,…,c。典型的作法是從全部數據點中任取c個點。

步驟2：用式（6.4）肯定隸屬矩陣U。

步驟3：根據式（6.2）計算價值函數。若是它小於某個肯定的閥值，或它相對上次價值函數質的改變量小於某個閥值，則算法中止。

步驟4：根據式（6.5）修正聚類中心。返回步驟2。

該算法自己是迭代的，且不能確保它收斂於最優解。K均值算法的性能依賴於聚類中心的初始位置。因此，爲了使它可取，要麼用一些前端方法求好的初始聚類中心；要麼每次用不一樣的初始聚類中心，將該算法運行屢次。此外，上述算法僅僅是一種具備表明性的方法；咱們還能夠先初始化一個任意的隸屬矩陣，而後再執行迭代過程。

K均值算法也能夠在線方式運行。這時，經過時間平均，導出相應的聚類中心和相應的組。即對於給定的數據點x，該算法求最近的聚類中心c_i，並用下面公式進行修正：

(6.8)

這種在線公式本質上嵌入了許多非監督學習神經元網絡的學習法則。

6.2.3 模糊C均值聚類

模糊C均值聚類（FCM），即衆所周知的模糊ISODATA，是用隸屬度肯定每一個數據點屬於某個聚類的程度的一種聚類算法。1973年，Bezdek提出了該算法，做爲早期硬C均值聚類（HCM）方法的一種改進。

FCM把n個向量x_i（i=1,2,…,n）分爲c個模糊組，並求每組的聚類中心，使得非類似性指標的價值函數達到最小。FCM與HCM的主要區別在於FCM用模糊劃分，使得每一個給定數據點用值在0，1間的隸屬度來肯定其屬於各個組的程度。與引入模糊劃分相適應，隸屬矩陣U容許有取值在0，1間的元素。不過，加上歸一化規定，一個數據集的隸屬度的和總等於1：