八：Hadoop之MapReduce基礎

時間 2019-12-05

原文原文鏈接

一：MapReduce基礎html

Hadoop MapReduce是一個軟件框架，基於該框架可以容易地編寫應用程序，這些應用程序可以運行在由上千個商用機器組成的大集羣上，並以一種可靠的，具備容錯能力的方式並行地處理上TB級別的海量數據集。編程

1.軟件框架，2.並行處理，3.可靠且容錯，4.大規模集羣，5.海量數據集。網絡

所以，對於MapReduce能夠簡單地認爲，他是一個軟件框架，海量數據是它的「菜」，它在大規模集羣上以一種可靠且容錯的方式並行地「烹飪這道菜」。app

MapReduce能作什麼？簡單講能夠作大數據處理，即如何烹飪這道菜，好比數據加工、挖掘和數據分析等。負載均衡

MapReuce的思想就是「分而治之」。Mapper負責「分」，即把複雜的任務分解爲若干個「簡單的任務」來處理。「簡單的任務」包含三層含義：一是數據或計算的規模相對原任務要大大縮小；二是就近計算原則，即任務會分配到存放着所需數據的節點上進行計算；三是這些小任務能夠並行計算，彼此間幾乎沒有依賴關係。Reducer負責對map階段的結果進行彙總。至於須要多少個Reducer，用戶能夠根據具體問題，經過在mapred-site.xml配置文件裏設置參數mapred.reduce.tasks的值，缺省值爲1。框架

MapReduce的思想就是「分而治之」。Mapper負責「分」，即把複雜的任務分解爲若干個「簡單的任務」來處理。「簡單的任務」包含三層含義：一是數據或計算的規模相對原任務要大大縮小；二是就近計算原則，即任務會分配到存放着所需數據的節點上進行計算；三是這些小任務能夠並行計算，彼此間幾乎沒有依賴關係。Reducer負責對map階段的結果進行彙總。至於須要多少個Reducer，用戶能夠根據具體問題，經過在mapred-site.xml配置文件裏設置參數mapred.reduce.tasks的值，缺省值爲1。分佈式

愛上函數

Mapreduce大規模數據集的操做，分發給一個主節點管理下的各分節點共同完成，而後經過整合各分節點的中間結果，獲得最終的結果。簡單地說，MapReduce就是「任務的分解與結果的彙總」。上述處理過程被MapReduce高度的抽象爲兩個函數：map和reduce，map負責把任務分解成多個任務，reduce負責把分解後多任務處理的結果彙總起來。至於在並行編程中的其餘種種複雜問題，如分佈式存儲，工做調度，負載均衡，容錯處理，網絡通訊等，均由MapReduce框架負責處理。oop

用MapReduce來處理的數據集（或任務）必須具有這樣的特色：大數據

待處理的數據集能夠分解成許多小的數據集，並且每個小數據集均可以徹底並行的進行處理。