SparkML機器學習之聚類(K-Means、GMM、LDA)

聚類的概念 聚類就是對大量未知標註(無監督)的數據集,按照數據之間的相似度,將N個對象的數據集劃分爲K個劃分(K個簇),使類別內的數據相似度較大,而類別間的數據相似較小。比如用戶畫像就是一種很常見的聚類算法的應用場景,基於用戶行爲特徵或者元數據將用戶分成不同的類。 常見聚類以及原理 K-means算法 也被稱爲k-均值,是一種最廣泛使用的聚類算法,也是其他聚類算法的基礎。來看下它的原理: 既然要劃
相關文章
相關標籤/搜索