SparkMLlib隨機森林實現pm預測(自定義函數的使用)

本文主要是用SparkMLlib中的一些算法來對PM進行預測,其中涉及了dataframe中對列使用自定義函數的操做,很方便!! 任務:讀取pm.csv,將含有缺失值的行扔掉(或用均值填充)將數據集分爲兩部分,0.8比例做爲訓練集,0.2比例做爲測試集 (1)使用month,day,hour,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir做爲特徵列(除去No,year,pm),pm做爲
相關文章
相關標籤/搜索