在數據挖掘中, k-Means 算法是一種 cluster analysis 的算法,其主要是來計算數據彙集的算法,主要經過不斷地取離種子點最近均值的算法。算法
K-Means算法主要解決的問題以下圖所示。咱們能夠看到,在圖的左邊有一些點,咱們用肉眼能夠看出來有四個點羣,可是咱們怎麼經過計算機程序找出這幾個點羣來呢?因而就出現了咱們的K-Means算法。spa
K-Means 算法概要ip
從上圖中,咱們能夠看到,A, B, C, D, E 是五個在圖中點。而灰色的點是咱們的種子點,也就是咱們用來找點羣的點。有兩個種子點,因此K=2。get
而後,K-Means的算法以下:it
k-Means算法的缺點:數據挖掘
K 是事先給定的,這個 K 值的選定是很是難以估計的。不少時候,事先並不知道給定的數據集應該分紅多少個類別才最合適。io
K-Means算法須要用初始隨機種子點來搞,這個隨機種子點過重要,不一樣的隨機種子點會有獲得徹底不一樣的結果。class