K-means聚類算法(事先數據並無類別之分!全部的數據都是同樣的)python
一、概述算法
K-means算法是集簡單和經典於一身的基於距離的聚類算法app
採用距離做爲類似性的評價指標,即認爲兩個對象的距離越近,其類似度就越大。dom
該算法認爲類簇是由距離靠近的對象組成的,所以把獲得緊湊且獨立的簇做爲最終目標。函數
二、核心思想測試
經過迭代尋找k個類簇的一種劃分方案,使得用這k個類簇的均值來表明相應各種樣本時所得的整體偏差最小。spa
k個聚類具備如下特色:各聚類自己儘量的緊湊,而各聚類之間儘量的分開。code
k-means算法的基礎是最小偏差平方和準則,對象
其代價函數是:blog
式中,μc(i)表示第i個聚類的均值。
各類簇內的樣本越類似,其與該類均值間的偏差平方越小,對全部類所獲得的偏差平方求和,便可驗證分爲k類時,各聚類是不是最優的。
上式的代價函數沒法用解析的方法最小化,只能有迭代的方法。
三、算法步驟圖解
下圖展現了對n個樣本點進行K-means聚類的效果,這裏k取2。
四、算法實現步驟
k-means算法是將樣本聚類成 k個簇(cluster),其中k是用戶給定的,其求解過程很是直觀簡單,具體算法描述以下:
1) 隨機選取 k個聚類質心點
2) 重複下面過程直到收斂 {
對於每個樣例 i,計算其應該屬於的類:
對於每個類 j,從新計算該類的質心:
}
其僞代碼以下:
******************************************************************************
建立k個點做爲初始的質心點(隨機選擇)
當任意一個點的簇分配結果發生改變時
對數據集中的每個數據點
對每個質心
計算質心與數據點的距離
將數據點分配到距離最近的簇
對每個簇,計算簇中全部點的均值,並將均值做爲質心
********************************************************
五、K-means聚類算法python實戰
需求:
對給定的數據集進行聚類
本案例採用二維數據集,共80個樣本,有4個類。
1 #!/usr/bin/python 2 # coding=utf-8 3 from numpy import * 4 # 加載數據 5 def loadDataSet(fileName): # 解析文件,按tab分割字段,獲得一個浮點數字類型的矩陣 6 dataMat = [] # 文件的最後一個字段是類別標籤 7 fr = open(fileName) 8 for line in fr.readlines(): 9 curLine = line.strip().split('\t') 10 fltLine = map(float, curLine) # 將每一個元素轉成float類型 11 dataMat.append(fltLine) 12 return dataMat 13 14 # 計算歐幾里得距離 15 def distEclud(vecA, vecB): 16 return sqrt(sum(power(vecA - vecB, 2))) # 求兩個向量之間的距離 17 18 # 構建聚簇中心,取k個(此例中爲4)隨機質心 19 def randCent(dataSet, k): 20 n = shape(dataSet)[1] 21 centroids = mat(zeros((k,n))) # 每一個質心有n個座標值,總共要k個質心 22 for j in range(n): 23 minJ = min(dataSet[:,j]) 24 maxJ = max(dataSet[:,j]) 25 rangeJ = float(maxJ - minJ) 26 centroids[:,j] = minJ + rangeJ * random.rand(k, 1) 27 return centroids 28 29 # k-means 聚類算法 30 def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent): 31 m = shape(dataSet)[0] 32 clusterAssment = mat(zeros((m,2))) # 用於存放該樣本屬於哪類及質心距離 33 # clusterAssment第一列存放該數據所屬的中心點,第二列是該數據到中心點的距離 34 centroids = createCent(dataSet, k) 35 clusterChanged = True # 用來判斷聚類是否已經收斂 36 while clusterChanged: 37 clusterChanged = False; 38 for i in range(m): # 把每個數據點劃分到離它最近的中心點 39 minDist = inf; minIndex = -1; 40 for j in range(k): 41 distJI = distMeans(centroids[j,:], dataSet[i,:]) 42 if distJI < minDist: 43 minDist = distJI; minIndex = j # 若是第i個數據點到第j箇中心點更近,則將i歸屬爲j 44 if clusterAssment[i,0] != minIndex: clusterChanged = True; # 若是分配發生變化,則須要繼續迭代 45 clusterAssment[i,:] = minIndex,minDist**2 # 並將第i個數據點的分配狀況存入字典 46 print centroids 47 for cent in range(k): # 從新計算中心點 48 ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]] # 去第一列等於cent的全部列 49 centroids[cent,:] = mean(ptsInClust, axis = 0) # 算出這些數據的中心點 50 return centroids, clusterAssment 51 # --------------------測試---------------------------------------------------- 52 # 用測試數據及測試kmeans算法 53 datMat = mat(loadDataSet('testSet.txt')) 54 myCentroids,clustAssing = kMeans(datMat,4) 55 print myCentroids 56 print clustAssing
運行結果:
六、K-means算法補充
K-means算法的缺點及改進方法
(1)k值的選擇是用戶指定的,不一樣的k獲得的結果會有挺大的不一樣,以下圖所示,左邊是k=3的結果,這個就太稀疏了,藍色的那個簇實際上是能夠再劃分紅兩個簇的。而右圖是k=5的結果,能夠看到紅色菱形和藍色菱形這兩個簇應該是能夠合併成一個簇的:
改進:
對k的選擇能夠先用一些算法分析數據的分佈,如重心和密度等,而後選擇合適的k
(2)對k個初始質心的選擇比較敏感,容易陷入局部最小值。例如,咱們上面的算法運行的時候,有可能會獲得不一樣的結果,以下面這兩種狀況。K-means也是收斂了,只是收斂到了局部最小值:
改進:
有人提出了另外一個成爲二分k均值(bisecting k-means)算法,它對初始的k個質心的選擇就不太敏感
(3)存在侷限性,以下面這種非球狀的數據分佈就搞不定了:
(4)數據集比較大的時候,收斂會比較慢。