跳板機，xshell如何和hadoop集羣通訊，以及怎麼運行pyspark代碼，數據庫是hive底層

時間 2020-07-15

標籤板機 xshell 如何 hadoop 集羣通訊以及怎麼運行 pyspark 代碼數據庫 hive 底層欄目 VNC 简体版

原文原文鏈接

1. 經過密鑰鏈接sshpython

2. 鏈接hadoop3集羣sql

./jump_hadoop3.shssh

3. 此時在/home/***/的目錄下。在這裏建一個需求的文件夾，可能對需求產生一些結果。oop

mkdir task1spa

4. 將要跑的python腳本（pyspark）傳到這個目錄裏，也就是從本地傳到集羣excel

rz -y (回車)hadoop

文件存在後，運行get

spark2-submit --master yarn --deploy-mode client --driver-memory 10G --num-executors 20 --executor-memory 20g --executor-cores 8 --conf spark.yarn.executor.memoryoverhead=4096 --conf spark.sql.adaptive.enabled=true --conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize=67108864 --conf spark.sql.broadcastTimeout=36000 --conf spark.sql.autobroadcastJoinThreshold=36700160it

***.pyspark

5.等待結果

6. 若是想要將產生的結果大可能是csv或者excel文件，導入本地，須要

sz -y 文件名

在第三步後也能夠直接打開pyspark的平臺

輸入： pyspark2

進入pyspark環境

通常狀況下，輸入：

df = spark.sql(""" sql語句 """)

df.show()