SparkML機器學習之聚類（K-Means、GMM、LDA）

時間 2021-01-20

原文原文鏈接

聚類的概念聚類就是對大量未知標註（無監督）的數據集，按照數據之間的相似度，將N個對象的數據集劃分爲K個劃分（K個簇），使類別內的數據相似度較大，而類別間的數據相似較小。比如用戶畫像就是一種很常見的聚類算法的應用場景，基於用戶行爲特徵或者元數據將用戶分成不同的類。常見聚類以及原理 K-means算法也被稱爲k-均值，是一種最廣泛使用的聚類算法，也是其他聚類算法的基礎。來看下它的原理：既然要劃

>>阅读原文<<