K-Means算法

時間 2021-08-15

標籤 html 算法數據庫 apache api 數組 dom ide idea spa 欄目 HTML 简体版

原文原文鏈接

在數據挖掘中，K-Means算法是一種cluster analysis的算法，其主要是來計算數據彙集的算法，主要經過不斷地取離種子點最近均值的算法。html

問題

K-Means算法主要解決的問題以下圖所示。咱們能夠看到，在圖的左邊有一些點，咱們用肉眼能夠看出來有四個點羣，可是咱們怎麼經過計算機程序找出這幾個點羣來呢？因而就出現了咱們的K-Means算法（Wikipedia連接）算法

K-Means要解決的問題數據庫

算法概要apache

這個算法其實很簡單，以下圖所示： api

從上圖中，咱們能夠看到，A，B，C，D，E是五個在圖中點。而灰色的點是咱們的種子點，也就是咱們用來找點羣的點。有兩個種子點，因此K=2。數組

而後，K-Means的算法以下：dom

隨機在圖中取K（這裏K=2）個種子點。
而後對圖中的全部點求到這K個種子點的距離，假如點Pi離種子點Si最近，那麼Pi屬於Si點羣。（上圖中，咱們能夠看到A，B屬於上面的種子點，C，D，E屬於下面中部的種子點）
接下來，咱們要移動種子點到屬於他的「點羣」的中心。（見圖上的第三步）
而後重複第2）和第3）步，直到，種子點沒有移動（咱們能夠看到圖中的第四步上面的種子點聚合了A，B，C，下面的種子點聚合了D，E）。

這個算法很簡單，可是有些細節我要提一下，求距離的公式我不說了，你們有初中畢業水平的人都應該知道怎麼算的。我重點想說一下「求點羣中心的算法」。ide

求點羣中心的算法

通常來講，求點羣中心點的算法你能夠很簡的使用各個點的X/Y座標的平均值。不過，我這裏想告訴你們另三個求中心點的的公式：idea

1）Minkowski Distance公式——λ能夠隨意取值，能夠是負數，也能夠是正數，或是無窮大。spa

2）Euclidean Distance公式——也就是第一個公式λ=2的狀況

3）CityBlock Distance公式——也就是第一個公式λ=1的狀況

這三個公式的求中心點有一些不同的地方，咱們看下圖（對於第一個λ在0-1之間）。

（1）Minkowski Distance （2）Euclidean Distance （3） CityBlock Distance

上面這幾個圖的大意是他們是怎麼個逼近中心的，第一個圖以星形的方式，第二個圖以同心圓的方式，第三個圖以菱形的方式。

K-Means的演示

若是你以」K Means Demo「爲關鍵字到Google裏查你能夠查到不少演示。這裏推薦一個演示：http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

操做是，鼠標左鍵是初始化點，右鍵初始化「種子點」，而後勾選「Show History」能夠看到一步一步的迭代。

注：這個演示的連接也有一個不錯的K Means Tutorial。

K-Means++算法

K-Means主要有兩個最重大的缺陷——都和初始值有關：

K是事先給定的，這個K值的選定是很是難以估計的。不少時候，事先並不知道給定的數據集應該分紅多少個類別才最合適。（ISODATA算法經過類的自動合併和分裂，獲得較爲合理的類型數目K）

K-Means算法須要用初始隨機種子點來搞，這個隨機種子點過重要，不一樣的隨機種子點會有獲得徹底不一樣的結果。（K-Means++算法能夠用來解決這個問題，其能夠有效地選擇初始點）

我在這裏重點說一下K-Means++算法步驟：

先從咱們的數據庫隨機挑個隨機點當「種子點」。
對於每一個點，咱們都計算其和最近的一個「種子點」的距離D(x)並保存在一個數組裏，而後把這些距離加起來獲得Sum(D(x))。
而後，再取一個隨機值，用權重的方式來取計算下一個「種子點」。這個算法的實現是，先取一個能落在Sum(D(x))中的隨機值Random，而後用Random -= D(x)，直到其<=0，此時的點就是下一個「種子點」。
重複第（2）和第（3）步直到全部的K個種子點都被選出來。
進行K-Means算法。

相關的代碼你能夠在這裏找到「implement the K-means++ algorithm」（牆）另，Apache的通用數據學庫也實現了這一算法

K-Means算法應用

看到這裏，你會說，K-Means算法看來很簡單，並且好像就是在玩座標點，沒什麼真實用處。並且，這個算法缺陷不少，還不如人工呢。是的，前面的例子只是玩二維座標點，的確沒什麼意思。可是你想一下下面的幾個問題：

1）若是不是二維的，是多維的，如5維的，那麼，就只能用計算機來計算了。

2）二維座標點的X，Y 座標，實際上是一種向量，是一種數學抽象。現實世界中不少屬性是能夠抽象成向量的，好比，咱們的年齡，咱們的喜愛，咱們的商品，等等，能抽象成向量的目的就是可讓計算機知道某兩個屬性間的距離。如：咱們認爲，18歲的人離24歲的人的距離要比離12歲的距離要近，鞋子這個商品離衣服這個商品的距離要比電腦要近，等等。

只要能把現實世界的物體的屬性抽象成向量，就能夠用K-Means算法來歸類了。

在《k均值聚類(K-means)》這篇文章中舉了一個很不錯的應用例子，做者用亞洲15支足球隊的2005年到1010年的戰績作了一個向量表，而後用K-Means把球隊歸類，得出了下面的結果，呵呵。