spark開發環境搭建(linux環境)

時間 2019-11-18

標籤 spark 開發環境搭建 linux 環境欄目 Spark 简体版

原文原文鏈接

開發環境整體版本信息以下：html

一、linux：centos 6.8，安裝過程參見 http://www.cnblogs.com/zhwyxuhui/p/8983663.htmljava

二、java版本：jdk-8u172-linux-x64.tar.gznode

三、hadoop版本：hadoop-3.1.0.tar.gzpython

四、scala版本：scala-2.12.6.tgzmysql

五、python版本：Python-3.6.5.tgzlinux

六、spark版本：spark-2.3.0-bin-hadoop2.7.tgzsql

七、zookeeper版本：zookeeper-3.4.10.tar.gz數據庫

八、hive版本：apache

九、kafka版本：centos

十、服務器集羣：192.168.0.110(master)，192.168.0.111(slave1)，192.168.0.112(slave2)

1、java的安裝

一、上傳jdk安裝包到/usr/local/lib目錄下，並解壓縮

二、把解壓的文件夾複製到另外兩臺機子

三、三臺服務器分別修改bigdata用戶的環境變量

四、使配置生效並驗證

2、hadoop的安裝

一、bigdata用戶家目錄下建立目錄bigdata，上傳hadoop安裝包並解壓

二、進入hadoop配置文件目錄，修改hadoop配置

三、修改core-site.xml，添加紅色方框的內容

四、修改hdfs-site.xml，並建立對應的目錄

五、修改yarn-site.xml

六、修改workers（老版本爲slaves）

七、修改hadoop-env.sh，增長JAVA_HOME

八、把master上配置好的hadoop分發到每個slave上

九、只需在master上bigdata用戶下配置環境變量

十、使環境變量生效並檢查

十一、首次運行hdfs，須要先格式化hdfs【 hdfs namenode -format 】，而後啓動hdfs【start-dfs.sh】

十二、可訪問http://192.168.0.110:9870【192.168.0.110爲master的ip地址，老版本hadoop的端口爲50070】看下是否部署成功；如需中止hdfs，使用【stop-dfs.sh】

1三、也可輸入名jps，查看是否有如下進程

1四、啓動yarn【start-yarn.sh】

1五、訪問http://192.168.0.110:8088/cluster，查看yarn是否正常工做，中止yarn使用【stop-yarn.sh】

1六、也可輸入名jps，查看是否有如下進程

綜上，hadoop集羣安裝完畢！

3、scala的安裝

一、切換到root用戶下，下載scala並上傳到/usr/local/lib目錄下，而後解壓

二、把解壓後的文件分發到slave1和slave2

scp -r scala-2.12.6 root@slave1:/usr/local/lib

scp -r scala-2.12.6 root@slave2:/usr/local/lib

三、分別在三臺服務器上修改bigdata用戶的環境變量

四、驗證環境變量是否生效

五、運行scala命令驗證是否安裝成功，並按ctrl+z退出

4、python的安裝

一、在集羣上運行pyspark，須要先安裝zlib和gcc相關的軟件包

yum -y install gcc*

二、下載python安裝包，並上傳，而後解壓

三、進入/usr/local/lib/，修改Modules/Setup.dist【老版本是Setup】，找到紅色一行，並把註釋去掉

四、執行./configure

五、make

六、make install

七、查看系統原有python版本，並重命名

八、修改/usr/bin/yum

九、從新創建python的軟鏈接

七、執行python命令，檢查是否安裝好

5、spark的安裝

一、下載並上傳spark安裝文件到bigdata用戶家目錄下的bigdata目錄下，而後解壓

二、配置slaves

三、配置spark-env.sh

四、把配置好的spark分發slave1和slave2上面

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata

五、在master上配置環境變量

source ~/.bash_profile

六、啓動spark

七、確認spark已經啓動【jps命令，或者訪問http://192.168.0.110:8080】

八、測試spark代碼【ctrl+z退出】

6、zookeeper的安裝

一、下載並上傳zookeeper文件，而後解壓

二、修改配置文件

三、建立配置文件配置的目錄

四、將配置好的zookeeper分發到slave1和slave2

五、分別在3臺服務器的~/bigdata/zookeeper/data目錄中新增文件myid並修改

master上myid的內容爲：0

slave1上myid的內容爲：1

slave2上myid的內容爲：2

六、分別到3臺服務器中啓動節點zk服務

七、查看每個服務器上的zk的狀態

7、hive的安裝

一、安裝mysql

安裝：yum install -y mysql-server

啓動：service mysqld start

修改root用戶密碼：mysqladmin -u root password 'root'

建立數據庫hive並受權：

二、下載並上傳hive安裝包，而後解壓

三、進入配置目錄【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】，修改配置文件hive-site.xml

四、編輯hive-env.sh

五、下載mysql的jdbc驅動mysql-connector-java-5.1.44-bin.jar，上傳/home/bigdata/bigdata/apache-hive-2.3.3-bin/lib

六、配置master的環境變量

source ~/.bash_profile

七、建立hive-site.xml裏面配置的目錄並受權

八、指定hive數據庫類型並初始化

九、驗證hive的mysql數據庫是否安裝成功【hive數據庫下面是否有表】

十、運行hive前首先要確保meta store服務已經啓動：先建立hive運行日誌目錄logs，再運行HIVE

驗證：

運行HIVE

8、kafka的安裝

一、下載kafka並上傳，而後解壓

二、建立日誌目錄，修改配置文件

mkdir /home/bigdata/bigdata/kafka-logs-new

三、將kafka分發到slave1 和 slave2

四、分別修改slave1和slave2上面的server.properties文件

slave1：broker.id=1

slave2：broker.id=2

五、分別在三臺服務器上啓動broker server

nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &

六、在master上建立topic

七、查看topic

八、啓動producer發送消息

九、啓動consumer消費消息

十、效果以下

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。