使用Pyspark進行特徵工程時的那些坑

時間 2019-12-13

標籤使用 pyspark 進行特徵工程那些简体版

原文原文鏈接

以腳本spark_clean_online_action.py、數據集new_sxf_time_count_1781115582.csv爲例：集羣節點包括2十二、21六、21七、218。須要注意的是：python

每臺節點有且僅有Python 2.7.5 和Python 2.6.8 兩個環境完成相關依賴安裝

一、上傳待處理文件到HDFSapp

二、Pyspark默認調用的是Python 2.7.5 解釋器，因此需更改調用版本，每一個節點執行： export PYSPARK_PYTHON=/usr/local/python3/bin/python3spa

三、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.pycode

或者不執行2和3，僅執行：get

四、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.pypandas

版本

pandas==0.20.3
pyspark==2.3.0
pyarrow==0.12.1

相關標籤/搜索