1. 經過密鑰鏈接sshpython
2. 鏈接hadoop3集羣sql
./jump_hadoop3.shssh
3. 此時在/home/***/的目錄下。在這裏建一個需求的文件夾,可能對需求產生一些結果。oop
mkdir task1spa
4. 將要跑的python腳本(pyspark)傳到這個目錄裏,也就是從本地傳到集羣excel
rz -y (回車)hadoop
文件存在後,運行get
spark2-submit --master yarn --deploy-mode client --driver-memory 10G --num-executors 20 --executor-memory 20g --executor-cores 8 --conf spark.yarn.executor.memoryoverhead=4096 --conf spark.sql.adaptive.enabled=true --conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize=67108864 --conf spark.sql.broadcastTimeout=36000 --conf spark.sql.autobroadcastJoinThreshold=36700160it
***.pyspark
5.等待結果
6. 若是想要將產生的結果 大可能是csv或者excel文件,導入本地,須要
sz -y 文件名
在第三步後也能夠直接打開pyspark的平臺
輸入: pyspark2
進入pyspark環境
通常狀況下,輸入:
df = spark.sql(""" sql語句 """)
df.show()