以腳本spark_clean_online_action.py
、數據集new_sxf_time_count_1781115582.csv
爲例: 集羣節點包括2十二、21六、21七、218。須要注意的是:python
一、上傳待處理文件到HDFSapp
二、Pyspark默認調用的是Python 2.7.5 解釋器,因此需更改調用版本,每一個節點執行: export PYSPARK_PYTHON=/usr/local/python3/bin/python3
spa
三、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py
code
或者不執行2和3,僅執行:get
四、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py
pandas