Spark中使用UDF函數、zipWithIndex配合Array數組來對Vector類的列進行分割，實現聚類中心讀取爲DataFrame

時間 2019-12-05

標籤 spark 使用 udf 函數 zipwithindex 配合 array 數組 vector 進行分割實現中心讀取 dataframe 欄目 Spark 简体版

原文原文鏈接

簡介使用的數據集是UCI提供的Machine-Learning-Databases數據集。本篇博客的內容是筆者在輸出聚類中心信息時實踐所得：html 因爲在ml中獲得的聚類中心是Array[Vector]類的數據，Array中保存每一個聚類中心的數據，Vector記錄每一個聚類中心的每一個維度，很難將其讀入DataFrame，本篇文章經過rdd做爲中介來將其成功轉換。而對於每一個聚類中心的數

>>阅读原文<<