開發環境整體版本信息以下:html
一、linux:centos 6.8,安裝過程參見 http://www.cnblogs.com/zhwyxuhui/p/8983663.htmljava
二、java版本:jdk-8u172-linux-x64.tar.gznode
三、hadoop版本:hadoop-3.1.0.tar.gzpython
四、scala版本:scala-2.12.6.tgzmysql
五、python版本:Python-3.6.5.tgzlinux
六、spark版本:spark-2.3.0-bin-hadoop2.7.tgzsql
七、zookeeper版本:zookeeper-3.4.10.tar.gz數據庫
八、hive版本:apache
九、kafka版本:centos
十、服務器集羣:192.168.0.110(master),192.168.0.111(slave1),192.168.0.112(slave2)
1、java的安裝
一、上傳jdk安裝包到/usr/local/lib目錄下,並解壓縮
二、把解壓的文件夾複製到另外兩臺機子
三、三臺服務器分別修改bigdata用戶的環境變量
四、使配置生效並驗證
2、hadoop的安裝
一、bigdata用戶家目錄下建立目錄bigdata,上傳hadoop安裝包並解壓
二、進入hadoop配置文件目錄,修改hadoop配置
三、修改core-site.xml,添加紅色方框的內容
四、修改hdfs-site.xml,並建立對應的目錄
五、修改yarn-site.xml
六、修改workers(老版本爲slaves)
七、修改hadoop-env.sh,增長JAVA_HOME
八、把master上配置好的hadoop分發到每個slave上
九、只需在master上bigdata用戶下配置環境變量
十、使環境變量生效並檢查
十一、首次運行hdfs,須要先格式化hdfs【 hdfs namenode -format 】,而後啓動hdfs【start-dfs.sh】
十二、可訪問http://192.168.0.110:9870【192.168.0.110爲master的ip地址,老版本hadoop的端口爲50070】看下是否部署成功;如需中止hdfs,使用【stop-dfs.sh】
1三、也可輸入名jps,查看是否有如下進程
1四、啓動yarn【start-yarn.sh】
1五、訪問http://192.168.0.110:8088/cluster,查看yarn是否正常工做,中止yarn使用【stop-yarn.sh】
1六、也可輸入名jps,查看是否有如下進程
綜上,hadoop集羣安裝完畢!
3、scala的安裝
一、切換到root用戶下,下載scala並上傳到/usr/local/lib目錄下,而後解壓
二、把解壓後的文件分發到slave1和slave2
scp -r scala-2.12.6 root@slave1:/usr/local/lib
scp -r scala-2.12.6 root@slave2:/usr/local/lib
三、分別在三臺服務器上修改bigdata用戶的環境變量
四、驗證環境變量是否生效
五、運行scala命令驗證是否安裝成功,並按ctrl+z退出
4、python的安裝
一、在集羣上運行pyspark,須要先安裝zlib和gcc相關的軟件包
yum -y install gcc*
二、下載python安裝包,並上傳,而後解壓
三、進入/usr/local/lib/,修改Modules/Setup.dist【老版本是Setup】,找到紅色一行,並把註釋去掉
四、執行./configure
五、make
六、make install
七、查看系統原有python版本,並重命名
八、修改/usr/bin/yum
九、從新創建python的軟鏈接
七、執行python命令,檢查是否安裝好
5、spark的安裝
一、下載並上傳spark安裝文件到bigdata用戶家目錄下的bigdata目錄下,而後解壓
二、配置slaves
三、配置spark-env.sh
四、把配置好的spark分發slave1和slave2上面
scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata
scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata
五、在master上配置環境變量
source ~/.bash_profile
六、啓動spark
七、確認spark已經啓動【jps命令,或者訪問http://192.168.0.110:8080】
八、測試spark代碼【ctrl+z退出】
6、zookeeper的安裝
一、下載並上傳zookeeper文件,而後解壓
二、修改配置文件
三、建立配置文件配置的目錄
四、將配置好的zookeeper分發到slave1和slave2
五、分別在3臺服務器的~/bigdata/zookeeper/data目錄中新增文件myid並修改
master上myid的內容爲:0
slave1上myid的內容爲:1
slave2上myid的內容爲:2
六、分別到3臺服務器中啓動節點zk服務
七、查看每個服務器上的zk的狀態
7、hive的安裝
一、安裝mysql
安裝:yum install -y mysql-server
啓動:service mysqld start
修改root用戶密碼:mysqladmin -u root password 'root'
建立數據庫hive並受權:
二、下載並上傳hive安裝包,而後解壓
三、進入配置目錄【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】,修改配置文件hive-site.xml
四、編輯hive-env.sh
五、下載mysql的jdbc驅動mysql-connector-java-5.1.44-bin.jar,上傳/home/bigdata/bigdata/apache-hive-2.3.3-bin/lib
六、配置master的環境變量
source ~/.bash_profile
七、建立hive-site.xml裏面配置的目錄並受權
八、指定hive數據庫類型並初始化
九、驗證hive的mysql數據庫是否安裝成功【hive數據庫下面是否有表】
十、運行hive前首先要確保meta store服務已經啓動:先建立hive運行日誌目錄logs,再運行HIVE
驗證:
運行HIVE
8、kafka的安裝
一、下載kafka並上傳,而後解壓
二、建立日誌目錄,修改配置文件
mkdir /home/bigdata/bigdata/kafka-logs-new
三、將kafka分發到slave1 和 slave2
四、分別修改slave1和slave2上面的server.properties文件
slave1:broker.id=1
slave2:broker.id=2
五、分別在三臺服務器上啓動broker server
nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &
六、在master上建立topic
七、查看topic
八、啓動producer發送消息
九、啓動consumer消費消息
十、效果以下