跳板機,xshell如何和hadoop集羣通訊,以及怎麼運行pyspark代碼,數據庫是hive底層

1. 經過密鑰鏈接sshpython

2. 鏈接hadoop3集羣sql

  ./jump_hadoop3.shssh

3. 此時在/home/***/的目錄下。在這裏建一個需求的文件夾,可能對需求產生一些結果。oop

mkdir task1spa

4. 將要跑的python腳本(pyspark)傳到這個目錄裏,也就是從本地傳到集羣excel

  rz -y (回車)hadoop

文件存在後,運行get

spark2-submit --master yarn --deploy-mode client  --driver-memory 10G --num-executors 20 --executor-memory 20g --executor-cores 8  --conf spark.yarn.executor.memoryoverhead=4096 --conf spark.sql.adaptive.enabled=true --conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize=67108864 --conf spark.sql.broadcastTimeout=36000 --conf spark.sql.autobroadcastJoinThreshold=36700160it

***.pyspark

5.等待結果

 

6. 若是想要將產生的結果 大可能是csv或者excel文件,導入本地,須要

sz -y 文件名

 

 

在第三步後也能夠直接打開pyspark的平臺

輸入: pyspark2

進入pyspark環境

通常狀況下,輸入:

df = spark.sql(""" sql語句 """)

df.show() 

相關文章
相關標籤/搜索