Kmeans 聚類及其python實現

時間 2019-11-08

標籤 kmeans 及其 python 實現欄目 Python 简体版

原文原文鏈接

主要參考 K-means 聚類算法及 python 代碼實現還有《機器學習實戰》這本書，固然前面那個連接的也是參考這本書，懂原理，會用就好了。html

一、概述python

K-means 算法是集簡單和經典於一身的基於距離的聚類算法git

採用距離做爲類似性的評價指標，即認爲兩個對象的距離越近，其類似度就越大。算法

該算法認爲類簇是由距離靠近的對象組成的，所以把獲得緊湊且獨立的簇做爲最終目標。數組

說白了就是無監督的聚類，你們都是同一個標註，或者沒有標註，而後這一堆數據是一類，那一堆又是一類，你人爲的設置好幾個類，算法自動幫你分好各個類，只要每一個類的樣本儘量的緊湊便可。

二、核心思想app

經過迭代尋找 k 個類簇的一種劃分方案，使得用這 k 個類簇的均值來表明相應各種樣本時所得的整體偏差最小。dom

k 個聚類具備如下特色：各聚類自己儘量的緊湊，而各聚類之間儘量的分開。機器學習

k-means 算法的基礎是最小偏差平方和準則,函數

其代價函數是：post

式中，μc(i) 表示第 i 個聚類的均值。

各種簇內的樣本越類似，其與該類均值間的偏差平方越小，對全部類所獲得的偏差平方求和，便可驗證分爲 k 類時，各聚類是不是最優的。

上式的代價函數沒法用解析的方法最小化，只能有迭代的方法。

三、算法步驟圖解

下圖展現了對 n 個樣本點進行 K-means 聚類的效果，這裏 k 取 2。

四、算法實現步驟

k-means 算法是將樣本聚類成 k 個簇（cluster），其中 k 是用戶給定的，其求解過程很是直觀簡單，具體算法描述以下：

1) 隨機選取 k 個聚類質心點

2) 重複下面過程直到收斂 {

對於每個樣例 i，計算其應該屬於的類：

對於每個類 j，從新計算該類的質心：

}

其僞代碼以下：

******************************************************************************

建立 k 個點做爲初始的質心點（隨機選擇）

當任意一個點的簇分配結果發生改變時

對數據集中的每個數據點

對每個質心

計算質心與數據點的距離

將數據點分配到距離最近的簇

對每個簇，計算簇中全部點的均值，並將均值做爲質心

********************************************************

五、K-means 聚類算法 python 實戰

這個就是書上的代碼。

需求：對給定的數據集進行聚類

本案例採用二維數據集，共 80 個樣本，有 4 個類。

$ wc -l testSet.txt;head testSet.txt
80 testSet.txt
1.658985 4.285136
-3.453687 3.424321
4.838138 -1.151539
-5.379713 -3.362104
0.972564 2.924086
-3.567919 1.531611
0.450614 -3.302219
-3.487105 -1.724432
2.668759 1.594842
-3.156485 3.191137

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Time    : 18-8-8 下午2:17
# Author  : dahu
# File    : kmeans2.py
# Software: PyCharm

#from :  https://www.cnblogs.com/ahu-lichang/p/7161613.html
import sys
reload(sys)
sys.setdefaultencoding('UTF-8')

from numpy import *
import matplotlib.pyplot as plt
# 加載數據
def loadDataSet(fileName):  # 解析文件，按tab分割字段，獲得一個浮點數字類型的矩陣
    dataMat = []              # 文件的最後一個字段是類別標籤
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float, curLine)    # 將每一個元素轉成float類型
        dataMat.append(fltLine)
    return dataMat

# 計算歐幾里得距離
def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) # 求兩個向量之間的距離

# 構建聚簇中心，取k個(此例中k=4)隨機質心
def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))   # 每一個質心有n個座標值，總共要k個質心
    for j in range(n):
        minJ = min(dataSet[:,j])
        maxJ = max(dataSet[:,j])
        rangeJ = float(maxJ - minJ)
        centroids[:,j] = minJ + rangeJ * random.rand(k, 1)
    return centroids

# k-means 聚類算法
def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):
    '''
    :param dataSet:  沒有lable的數據集  (本例中是二維數據)
    :param k:  分爲幾個簇
    :param distMeans:    計算距離的函數
    :param createCent:   獲取k個隨機質心的函數
    :return: centroids： 最終肯定的 k個 質心
            clusterAssment:  該樣本屬於哪類  及  到該類質心距離
    '''
    m = shape(dataSet)[0]   #m=80,樣本數量
    clusterAssment = mat(zeros((m,2)))
    # clusterAssment第一列存放該數據所屬的中心點，第二列是該數據到中心點的距離，
    centroids = createCent(dataSet, k)
    clusterChanged = True   # 用來判斷聚類是否已經收斂
    while clusterChanged:
        clusterChanged = False;
        for i in range(m):  # 把每個數據點劃分到離它最近的中心點
            minDist = inf; minIndex = -1;
            for j in range(k):
                distJI = distMeans(centroids[j,:], dataSet[i,:])
                if distJI < minDist:
                    minDist = distJI; minIndex = j  # 若是第i個數據點到第j箇中心點更近，則將i歸屬爲j
            if clusterAssment[i,0] != minIndex:
                clusterChanged = True  # 若是分配發生變化，則須要繼續迭代
            clusterAssment[i,:] = minIndex,minDist**2   # 並將第i個數據點的分配狀況存入字典
        # print centroids
        for cent in range(k):   # 從新計算中心點
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]   # 去第一列等於cent的全部列
            centroids[cent,:] = mean(ptsInClust, axis = 0)  # 算出這些數據的中心點
    return centroids, clusterAssment
# --------------------測試----------------------------------------------------
# 用測試數據及測試kmeans算法
if __name__ == '__main__':
    datMat = mat(loadDataSet('testSet.txt'))
    # print min(datMat[:,0])
    # print max(datMat[:,1])
    # print randCent(datMat,4)
    myCentroids,clustAssing = kMeans(datMat,4)
    print myCentroids
    # print clustAssing,len(clustAssing)

    plt.figure(1)
    x=array(datMat[:,0]).ravel()
    y=array(datMat[:,1]).ravel()
    plt.scatter(x,y, marker='o')
    xcent=array(myCentroids[:,0]).ravel()
    ycent=array(myCentroids[:,1]).ravel()
    plt.scatter( xcent, ycent, marker='x', color='r', s=50)
    plt.show()

運行結果：

代碼不是特別的難，看下均可以看得明白，發現都有點不會numpy的操做了，裏面有一些是基於numpy的布爾型數組操做，要補一補。第 04 章 NumPy 基礎：數組和矢量計算

簡單說下各個函數的做用：

loadDataSet ：加載數據的

distEclud ： 計算距離的，註釋說是計算歐幾里德距離，其實就是計算  每一個樣本 到 每一個聚類質心的距離，這是用來肯定質心座標的。

kMeans ： 主函數了，實現了kmeans 算法註釋已經比較詳細了，就再也不細說了。 書上後面還有一個對kmeans優化的地方，這裏就不介紹了。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

Kmeans 聚類 及其python實現

說白了就是無監督的聚類，你們都是同一個標註，或者沒有標註，而後這一堆數據是一類，那一堆又是一類，你人爲的設置好幾個類，算法自動幫你分好各個類，只要每一個類的樣本儘量的緊湊便可。

Kmeans 聚類及其python實現