100天搞定機器學習|day43 幾張GIF理解K-均值聚類原理

前文推薦html

如何正確使用「K均值聚類」?git

KMeans算法是典型的基於距離的聚類算法,採用距離做爲類似性的評價指標,即認爲兩個對象的距離越近,其類似度就越大。該算法認爲簇是由距離靠近的對象組成的,所以把獲得緊湊且獨立的簇做爲最終目標。github

K個初始聚類中心點的選取對聚類結果具備較大的影響,由於在該算法第一步中是隨機地選取任意k個對象做爲初始聚類中心,初始地表明一個簇。該算法在每次迭代中對數據集中剩餘的每一個對象,根據其與各個簇中心的距離賦給最近的簇。當考查完全部數據對象後,一次迭代運算完成,新的聚類中心被計算出來。算法

算法過程以下:(1)從N個數據文檔(樣本)隨機選取K個數據文檔做爲質心(聚類中心)。本文在聚類中心初始化實現過程當中採起在樣本空間範圍內隨機生成K個聚類中心。(2)對每一個數據文檔測量其到每一個質心的距離,並把它歸到最近的質心的類。(3)從新計算已經獲得的各個類的質心。(4)迭代(2)~(3步直至新的質心與原質心相等或小於指定閾值,算法結束。image.pngdom

The data points.

image

Starting with 4 left-most points

image

Starting with 4 right-most points

image

Starting with 4 top points

image

Starting with 4 bottom points

image

Starting with 4 random points in one cluster

image

參考:3d

https://github.com/MLEveryday/100-Days-Of-ML-Codehttps://www.cnblogs.com/eczhou/p/7860424.htmlhttp://www.avikjain.mecdn

相關文章
相關標籤/搜索