「集體智慧編程」之第三章：「發現羣組」的 k均值聚類

時間 2021-01-12

原文原文鏈接

分級聚類的缺點此前學習的分級聚類、與列聚類，有二個缺點：計算量大，數據越大運行越緩慢。沒有確切的將數據分成不同的組，只是形成了樹狀圖。雖然我倒覺得如果寫過多的代碼這一點還是可以搞定的。 k均值聚類可以應對上述兩種缺點，我們會預先告訴算法生成的聚類數量，也就是我要產生幾個類。原理如下圖所示，對於5個數據項和兩個聚類過程是這樣的，先隨機產生兩個聚類點，那麼每一個數據項都會離一其中一個最近，