spark分析空氣中PM2.5與SO2的線性相關

1. 數據預處理 通過查看數據後我們發現數據量很龐大,每條數據中含有25個屬性,這裏我們只需要province、city、station、aqi、so2、no2、co、o3、pm2_5這9個屬性 首先通過sed命令刪除所有csv文件的第一行即列名 然後通過awk命令讀取所有csv文件的第1、2、4、8、9、11、13、15、21列的數據寫入test.csv文件 由於生成的csv文件是以空格作爲分隔
相關文章
相關標籤/搜索