k-means優化 & k-means距離的選擇 &k-medoids對比

一、k-means:在大數據的條件下,會耗費大量的時間和內存。 優化k-means的建議: 1、減少聚類的數目K。因爲,每個樣本都要跟類中心計算距離。 2、減少樣本的特徵維度。比如說,通過PCA等進行降維。 3、考察其他的聚類算法,通過選取toy數據,去測試不同聚類算法的性能。 4、hadoop集羣,K-means算法是很容易進行並行計算的。 二、K-means距離的定義: 目前各種機器學習開源庫
相關文章
相關標籤/搜索