Kmeans算法理解

Kmeans有兩個重要的問題: 1、選擇K值 k是我們KMEANS算法的關鍵值; Spark ml中提供computecost.所有點到其最近的中心點的平方和來評估聚類效果,同樣的迭代次數和算法跑的次數,這個值越小代表聚類效果越好 2、初始聚類中心的選擇 1)隨機模式,會造成聚類的結果和數據的實際分佈差距很大 2)k-means++:初始的聚類中心之間的相互聚類要盡
相關文章
相關標籤/搜索