使用 Spark MLlib 做 K-means 聚類分析

時間 2020-12-23

原文原文鏈接

引言提起機器學習 (Machine Learning)，相信很多計算機從業者都會對這個技術方向感到興奮。然而學習並使用機器學習算法來處理數據卻是一項複雜的工作，需要充足的知識儲備，如概率論，數理統計，數值逼近，最優化理論等。機器學習旨在使計算機具有人類一樣的學習能力和模仿能力，這也是實現人工智能的核心思想和方法。傳統的機器學習算法，由於技術和單機存儲的限制，只能在少量數據上使用，隨着 HDFS(