Hadoop數據分析平臺搭建

時間 2020-05-26

標籤 hadoop 數據分析平臺搭建欄目 Hadoop 简体版

原文原文鏈接

一．配置安裝環境html

1> 在虛擬機Vmware上搭建三臺Red Hat Enterprise linux，其中一臺爲master，另外兩臺位slaves。java

2> 下載相關的軟件，如java jdk、hadoop-0.20.2等。node

二．安裝和配置步驟linux

1> 要是hadoop能過正常的免密碼在各個節點中鏈接傳輸數據，最重要的是配置SSH，生成密鑰。ide

2> jdk的安裝，修改/etc/profile文件。oop

3> hadoop安裝，同時也要修改hadoop下conf目錄下的core-site.xml、hdfs-site.xml和mapred-site.xml三個核心文件。測試

4> 最後是格式化HDFS和啓動hadoop。spa

三．Hadoop數據分析平臺3d

v 1>查看hadoop集羣orm

結果以下圖所示，其中master爲Namenode，JobTracker，SecondaryNamenode。在這裏就需說下上面三個單詞的意思。

Namenode：是HDFS的守護進程。記錄文件時如何分割成數據塊的，以及這些數據塊被存儲在哪些節點上，同時Namenode是個單點，發生故障會是集羣崩潰。

SecondaryNamenode：是監控HDFS狀態的輔助後臺程序，每一個集羣都有一個，它的做用是當Namenode故障時能夠做爲備用Namenode使用。但須要手動切換。

JobTracker：是用於處理做業的後臺程序，決定哪些文件參與處理，而後切割task並分配節點，每一個集羣只有一個JobTracker且位於master上。

Master：

slave1和slave2：

其中slaves上只有DataNode和TaskTracker

DataNode:負責把HDFS數據塊讀寫到本地文件系統中。

TaskTrecker：管理各自節點上的task。

由上圖可知在這個集羣中有三個節點，其中一個master，兩個slaves。

下圖顯示的是NaneNode，能夠看到的信息是：

這個集羣總共的容量是Configured Capacity ： 46.32G

DFS使用了 DFS Used ： 84 KB

存在的節點數是 Live Nodes ： 3

v 2> 測試hadoop集羣

經過運行wordcount這個功能來測試，看上圖能夠只map和reduce的完成度，

得知已經成功運行了一次做業Completed Jobs。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。