hadoop+hive+spark搭建（三）

時間 2019-12-11

標籤 hadoop+hive+spark hadoop hive spark 搭建欄目 Hadoop 简体版

原文原文鏈接

1、spark安裝

　　由於以前安裝過hadoop，因此，在「Choose a package type」後面須要選擇「Pre-build with user-provided Hadoop [can use with most Hadoop 　　distributions]」，而後，點擊「Download Spark」後面的「spark-2.1.0-bin-without-hadoop.tgz」下載便可。Pre-build with user-provided Hadoop: 　　屬於「Hadoop free」版，這樣，下載到的Spark，可應用到任意Hadoop 版本。　　python

　　上傳spark軟件包到任意節點上

　　解壓縮spark軟件包到/usr/local/目錄下

　　重命名爲spark文件夾

　　　　 mv spark-2.1.0-bin-without-hadoop/ sparkweb

　　重命名conf/目錄下spark-env.sh.template爲spark-env.sh

　　　　cp spark-env.sh.template spark-env.shshell

　　重命名conf/目錄下slaves.template爲slaves

　　　　mv slaves.template slaves app

2、配置spark

　　　編輯conf/spark-env.sh文件，在第一行添加如下配置信息:

　　　　　　export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)分佈式

　　　　　　＃上述表示Spark能夠把數據存儲到Hadoop分佈式文件系統HDFS中，也能夠從HDFS中讀取數據。若是沒有配置上面信息，Spark就只能讀寫本地數據，沒法讀寫HDFS數據。ide

　　　　　　export JAVA_HOME=/usr/local/jdk64/jdk1.8.0oop

　　　編輯conf/slaves文件

3、驗證spark是否安裝成功

　　在spark目錄中輸入命令驗證spark是否安裝成功

　　　　　　bin/run-example SparkPiui

　　　　　　bin/run-example SparkPi 2>&1 | grep "Pi is"　　　　　　　　#過濾顯示出pi的值url

　　　　web界面爲8080端口spa

　　集羣模式下shell

　　　pyspark --master spark://master:7077　　　　#python

　　提交應用

　　　　spark-submit

　　　　　　--class <main-class> 　　　　　　　　#須要運行的程序的主類，應用程序的入口點
　　　　　　--master <master-url> 　　　　　　　#Master URL，下面會有具體解釋
　　　　　　--deploy-mode <deploy-mode> 　　 #部署模式
　　　　　　... # other options 　　　　　　　　　 #其餘參數
　　　　　　<application-jar> 　　　　　　　　　 #應用程序JAR包
　　　　　　[application-arguments]　　　　　　 #傳遞給主類的主方法的參數