K-means聚類算法及python代碼實現

時間 2019-11-08

標籤 means 算法 python 代碼實現欄目 Python 简体版

原文原文鏈接

K-means聚類算法（事先數據並無類別之分！全部的數據都是同樣的）python

一、概述算法

K-means算法是集簡單和經典於一身的基於距離的聚類算法app

採用距離做爲類似性的評價指標，即認爲兩個對象的距離越近，其類似度就越大。dom

該算法認爲類簇是由距離靠近的對象組成的，所以把獲得緊湊且獨立的簇做爲最終目標。函數

二、核心思想測試

經過迭代尋找k個類簇的一種劃分方案，使得用這k個類簇的均值來表明相應各種樣本時所得的整體偏差最小。spa

k個聚類具備如下特色：各聚類自己儘量的緊湊，而各聚類之間儘量的分開。code

k-means算法的基礎是最小偏差平方和準則,對象

其代價函數是：blog

式中，μc(i)表示第i個聚類的均值。

各類簇內的樣本越類似，其與該類均值間的偏差平方越小，對全部類所獲得的偏差平方求和，便可驗證分爲k類時，各聚類是不是最優的。

上式的代價函數沒法用解析的方法最小化，只能有迭代的方法。

三、算法步驟圖解

下圖展現了對n個樣本點進行K-means聚類的效果，這裏k取2。

四、算法實現步驟

k-means算法是將樣本聚類成 k個簇（cluster），其中k是用戶給定的，其求解過程很是直觀簡單，具體算法描述以下：

1) 隨機選取 k個聚類質心點

2) 重複下面過程直到收斂 {

對於每個樣例 i，計算其應該屬於的類：

對於每個類 j，從新計算該類的質心：

}

其僞代碼以下：

******************************************************************************

建立k個點做爲初始的質心點（隨機選擇）

當任意一個點的簇分配結果發生改變時

對數據集中的每個數據點

對每個質心

計算質心與數據點的距離

將數據點分配到距離最近的簇

對每個簇，計算簇中全部點的均值，並將均值做爲質心

********************************************************

五、K-means聚類算法python實戰

需求：

對給定的數據集進行聚類

本案例採用二維數據集，共80個樣本，有4個類。

 1 #!/usr/bin/python
 2 # coding=utf-8
 3 from numpy import *
 4 # 加載數據
 5 def loadDataSet(fileName):  # 解析文件，按tab分割字段，獲得一個浮點數字類型的矩陣
 6     dataMat = []              # 文件的最後一個字段是類別標籤
 7     fr = open(fileName)
 8     for line in fr.readlines():
 9         curLine = line.strip().split('\t')
10         fltLine = map(float, curLine)    # 將每一個元素轉成float類型
11         dataMat.append(fltLine)
12     return dataMat
13 
14 # 計算歐幾里得距離
15 def distEclud(vecA, vecB):
16     return sqrt(sum(power(vecA - vecB, 2))) # 求兩個向量之間的距離
17 
18 # 構建聚簇中心，取k個(此例中爲4)隨機質心
19 def randCent(dataSet, k):
20     n = shape(dataSet)[1]
21     centroids = mat(zeros((k,n)))   # 每一個質心有n個座標值，總共要k個質心
22     for j in range(n):
23         minJ = min(dataSet[:,j])
24         maxJ = max(dataSet[:,j])
25         rangeJ = float(maxJ - minJ)
26         centroids[:,j] = minJ + rangeJ * random.rand(k, 1)
27     return centroids
28 
29 # k-means 聚類算法
30 def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):
31     m = shape(dataSet)[0]
32     clusterAssment = mat(zeros((m,2)))    # 用於存放該樣本屬於哪類及質心距離
33     # clusterAssment第一列存放該數據所屬的中心點，第二列是該數據到中心點的距離
34     centroids = createCent(dataSet, k)
35     clusterChanged = True   # 用來判斷聚類是否已經收斂
36     while clusterChanged:
37         clusterChanged = False;
38         for i in range(m):  # 把每個數據點劃分到離它最近的中心點
39             minDist = inf; minIndex = -1;
40             for j in range(k):
41                 distJI = distMeans(centroids[j,:], dataSet[i,:])
42                 if distJI < minDist:
43                     minDist = distJI; minIndex = j  # 若是第i個數據點到第j箇中心點更近，則將i歸屬爲j
44             if clusterAssment[i,0] != minIndex: clusterChanged = True;  # 若是分配發生變化，則須要繼續迭代
45             clusterAssment[i,:] = minIndex,minDist**2   # 並將第i個數據點的分配狀況存入字典
46         print centroids
47         for cent in range(k):   # 從新計算中心點
48             ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]   # 去第一列等於cent的全部列
49             centroids[cent,:] = mean(ptsInClust, axis = 0)  # 算出這些數據的中心點
50     return centroids, clusterAssment
51 # --------------------測試----------------------------------------------------
52 # 用測試數據及測試kmeans算法
53 datMat = mat(loadDataSet('testSet.txt'))
54 myCentroids,clustAssing = kMeans(datMat,4)
55 print myCentroids
56 print clustAssing