Spark中使用UDF函數、zipWithIndex配合Array數組來對Vector類的列進行分割，實現聚類中心讀取爲DataFrame

時間 2021-01-07

標籤 Scala Spark 大數據聚類 UDF 欄目 Spark 简体版

原文原文鏈接

簡介使用的數據集是UCI提供的Machine-Learning-Databases數據集。本篇博客的內容是筆者在輸出聚類中心信息時實踐所得：由於在ml中得到的聚類中心是Array[Vector]類的數據，Array中保存每個聚類中心的數據，Vector記錄每個聚類中心的每個維度，很難將其讀入DataFrame，本篇文章通過rdd作爲中介來將其成功轉換。而對於每個聚類中心的數據，如果根據所需

>>阅读原文<<