【轉載】Hadoop mapreduce 實現原理

時間 2019-12-11

原文原文鏈接

1. 如何用通俗的方法解釋MapReduce

MapReduce是Google開源的三大技術之一，是對海量數據進行「分而治之」計算框架。爲了簡單的理解並講述給客戶理解。咱們舉下面的例子來講明.app

首先，面對一堆雜亂的東西，有若干個漢堡、若干個冰淇淋、若干個可樂。若是級別都是上萬數量的狀況下，有沒有方法把他們較快的分析出來？框架

第一步，調度員簡單的將這一堆東西分解成若干堆。oop

第二步，調度員爲每堆物品分配一個分揀員，注意只分揀不計數，分揀員對應MAPReduce中的Map角色。分揀員乾的事情，就是將物品按類別分揀，好比分揀後的每一堆的狀態應該是以下圖所示。分揀員所作的也分紅簡單，從本身面前這一堆物品中拿一個，看是麪包的話，就扔麪包那。是可樂就扔可樂那。spa

第三步，調度員爲每類物品分配一個計數員（Reducer），把全部該類型的物品都發給他計數。好比全部的麪包類別都分給第一個計數員來負責計數。計數員統計出每一個類別的數目，再告訴調度員。.net

總結：Mapper用來分類，Reduce則用來對同類型的東西作進一步處理。對於互聯網的應用場景，好比分析一個網頁中出現的詞彙最多的單詞是什麼。Mapper用來將網頁中的文字段落分解成一個個單詞。相同的單詞會被送給同一個Reducer。Reducer會計算出該單詞出現了多少次。最後按照各單詞出現的次數得出結論。orm