Spark中使用UDF函數、zipWithIndex配合Array數組來對Vector類的列進行分割,實現聚類中心讀取爲DataFrame

簡介 使用的數據集是UCI提供的Machine-Learning-Databases數據集。 本篇博客的內容是筆者在輸出聚類中心信息時實踐所得: 由於在ml中得到的聚類中心是Array[Vector]類的數據,Array中保存每個聚類中心的數據,Vector記錄每個聚類中心的每個維度,很難將其讀入DataFrame,本篇文章通過rdd作爲中介來將其成功轉換。 而對於每個聚類中心的數據,如果根據所需
相關文章
相關標籤/搜索