分佈式並行計算MapReduce

分佈式並行計算MapReduce

做業要求來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319shell

1.用本身的話闡明Hadoop平臺上HDFS和MapReduce的功能、工做原理和工做過程。

HDFS的功能:HDFS是做爲底層存儲系統來存儲分佈式環境中的數據,它能夠讓你在Hadoop集羣中的多個節點上存儲大量數據(不管是結構化的,非結構化的仍是半結構化的)服務器

 

HDFS的工做原理:客戶端發送各類各樣各類各樣的請求,而後NameNode做爲一個管理者,下達命令,DataNode 執行實際的操做分佈式

 

HDFS的工做過程:客戶端把文件文件切分紅 一個一個的Block,而後進行存儲,再與NameNode 交互,獲取文件的位置信息,以後又與 DataNode 交互,讀取或者寫入數據。 函數

 

MapReduce的功能:它能夠把大型數據處理任務分解成不少單個的、在服務器集羣中執行,而且計算結果能夠合併在一塊兒來計算最終的結果 oop

 

MapReduce的工做原理:利用JobTracker獲得jobID,而後JobTracker收到做業的最後一個任務完成信息以後,客戶端的job再把信息傳給用戶 測試

 

MapReduce的工做過程:客戶端啓動一個做業,向JobTracker請求一個做業的ID,將運行做業所須要的資源文件複製到HDFS上,JobTracker接收到做業後將其放在做業隊列中,等待JobTracker對其進行調度。當JobTracker收到做業的最後一個任務完成信息時,便把做業設置成"成功",JobClient再傳達信息給用戶spa

2.HDFS上運行MapReduce

1)準備文本文件,放在本地/home/hadoop/wc

2)編寫map函數和reduce函數,在本地運行測試經過 3d

 

3)啓動Hadoop:HDFS, JobTracker, TaskTracker blog

4)把文本文件上傳到hdfs文件系統上 user/hadoop/input 接口

 

5)streaming的jar文件的路徑寫入環境變量,讓環境變量生效

 

6)創建一個shell腳本文件:streaming接口運行的腳本,名稱爲run.sh

7)source run.sh來執行mapreduce

 

8)查看運行結果

相關文章
相關標籤/搜索