pyspark特徵工程經常使用方法(一)

本文記錄特徵工程中經常使用的五種方法:MinMaxScaler,Normalization,OneHotEncoding,PCA以及QuantileDiscretizer 用於分箱 原有數據集以下圖:python MinMaxScaler from pyspark.ml.feature import MinMaxScaler 首先將c2列轉換爲vector的形式 vecAssembler = Ve
相關文章
相關標籤/搜索