一.配置安裝環境html
1> 在虛擬機Vmware上搭建三臺Red Hat Enterprise linux,其中一臺爲master,另外兩臺位slaves。java
2> 下載相關的軟件,如java jdk、hadoop-0.20.2等。node
二.安裝和配置步驟linux
1> 要是hadoop能過正常的免密碼在各個節點中鏈接傳輸數據,最重要的是配置SSH,生成密鑰。ide
2> jdk的安裝,修改/etc/profile文件。oop
3> hadoop安裝,同時也要修改hadoop下conf目錄下的core-site.xml、hdfs-site.xml和mapred-site.xml三個核心文件。測試
4> 最後是格式化HDFS和啓動hadoop。spa
三.Hadoop數據分析平臺3d
v 1>查看hadoop集羣orm
結果以下圖所示,其中master爲Namenode,JobTracker,SecondaryNamenode。在這裏就需說下上面三個單詞的意思。
Namenode:是HDFS的守護進程。記錄文件時如何分割成數據塊的,以及這些數據塊被存儲在哪些節點上,同時Namenode是個單點,發生故障會是集羣崩潰。
SecondaryNamenode:是監控HDFS狀態的輔助後臺程序,每一個集羣都有一個,它的做用是當Namenode故障時能夠做爲備用Namenode使用。但須要手動切換。
JobTracker:是用於處理做業的後臺程序,決定哪些文件參與處理,而後切割task並分配節點,每一個集羣只有一個JobTracker且位於master上。
Master:
slave1和slave2:
其中slaves上只有DataNode和TaskTracker
DataNode:負責把HDFS數據塊讀寫到本地文件系統中。
TaskTrecker:管理各自節點上的task。
由上圖可知在這個集羣中有三個節點,其中一個master,兩個slaves。
下圖顯示的是NaneNode,能夠看到的信息是:
這個集羣總共的容量是Configured Capacity : 46.32G
DFS使用了 DFS Used : 84 KB
存在的節點數是 Live Nodes : 3
v 2> 測試hadoop集羣
經過運行wordcount這個功能來測試,看上圖能夠只map和reduce的完成度,
得知已經成功運行了一次做業Completed Jobs。