Hadoop數據分析平臺搭建

一.配置安裝環境html

1> 在虛擬機Vmware上搭建三臺Red Hat Enterprise linux,其中一臺爲master,另外兩臺位slavesjava

2> 下載相關的軟件,如java jdkhadoop-0.20.2等。node

二.安裝和配置步驟linux

1> 要是hadoop能過正常的免密碼在各個節點中鏈接傳輸數據,最重要的是配置SSH,生成密鑰。ide

2> jdk的安裝,修改/etc/profile文件。oop

3> hadoop安裝,同時也要修改hadoopconf目錄下的core-site.xmlhdfs-site.xmlmapred-site.xml三個核心文件。測試

4> 最後是格式化HDFS和啓動hadoopspa

三.Hadoop數據分析平臺3d

v 1>查看hadoop集羣orm

     結果以下圖所示,其中masterNamenodeJobTrackerSecondaryNamenode。在這裏就需說下上面三個單詞的意思。

Namenode:是HDFS的守護進程。記錄文件時如何分割成數據塊的,以及這些數據塊被存儲在哪些節點上,同時Namenode是個單點,發生故障會是集羣崩潰。

SecondaryNamenode:是監控HDFS狀態的輔助後臺程序,每一個集羣都有一個,它的做用是當Namenode故障時能夠做爲備用Namenode使用。但須要手動切換。

JobTracker:是用於處理做業的後臺程序,決定哪些文件參與處理,而後切割task並分配節點,每一個集羣只有一個JobTracker且位於master上。

Master

slave1slave2

其中slaves上只有DataNodeTaskTracker

DataNode:負責把HDFS數據塊讀寫到本地文件系統中。

TaskTrecker:管理各自節點上的task

由上圖可知在這個集羣中有三個節點,其中一個master,兩個slaves

下圖顯示的是NaneNode,能夠看到的信息是:

這個集羣總共的容量是Configured Capacity 46.32G

DFS使用了          DFS Used         84 KB

存在的節點數是       Live Nodes        3

v 2> 測試hadoop集羣

經過運行wordcount這個功能來測試,看上圖能夠只mapreduce的完成度,

得知已經成功運行了一次做業Completed Jobs

相關文章
相關標籤/搜索