數據科學家須要瞭解的5大聚類算法

聚類是一種涉及數據點分組的機器學習技術。給定一個數據點集,則可利用聚類算法將每一個數據點分類到一個特定的組中。理論上,同一組數據點具備類似的性質或(和)特徵,不一樣組數據點具備高度不一樣的性質或(和)特徵。聚類屬於無監督學習,也是在不少領域中使用的統計數據分析的一種經常使用技術。本文將介紹常見的5大聚類算法。算法

K-Means算法機器學習

K-Means算法多是最知名的聚類算法,該算法在代碼中很容易理解和實現。學習

4fdc1d83d0f68ed6a5771cebd6b128d1d96cf557 

K-Means聚類spa

1.首先咱們選擇一些類或組,並隨機初始化它們各自的中心點。爲了計算所使用類的數量,最好快速查看數據並嘗試識別任何一個不一樣的分組。中心點是和每一個數據點矢量長度相同的矢量,上圖標記爲「X」。3d

2.每一個數據點是經過計算該點與每一個組中心的距離進行分類的,而後再將該點分類到和中心最接近的分組中。blog

相關文章
相關標籤/搜索