大數據學習之八——MapReduce工做機制

時間 2019-11-12

標籤數據學習之八 mapreduce 機制欄目 Hadoop 简体版

原文原文鏈接

1.MapReduce的特色java

軟件框架、並行處理、可靠且容錯、大規模集羣、海量數據集程序員

2.mapper和reducer數組

mapper負責「分」：把複雜的任務分解爲若干個「簡單的任務」來處理。簡單的任務包含三層含義：app

（1）數據或計算的規模相對原任務要大大縮小；框架

（2）就近計算原則，任務會分配到存放着所需數據的節點上進行計算；分佈式

（3）這些小任務能夠並行計算，彼此間幾乎沒有依賴關係。函數

reducer負責對map階段的結果進行彙總。oop

3.MapReduce的工做機制3d

（1）實體間的交互對象

如圖所示，包含四個獨立的實體：

·客戶端：編寫mapreduce程序，配置做業，提交做業，這就是程序員完成的工做；

·jobtracker:初始化做業，分配做業，與TaskTracker通訊，協調整個做業的執行。jbotracker是一個java應用程序，它的主類是JobTracker

·tasktracker:保持與JobTracker的通訊，在分配的數據片斷上執行Map或Reduce任務，TaskTracker和JobTracker的不一樣有個很重要的方面，就是在執行任務時候TaskTracker能夠有n多個，JobTracker則只會有一個。tasktracker是java應用程序，它的主類是TaskTracker

·HDFS文件式分佈系統：保存做業的數據、配置信息等等，最後的結果也是保存在hdfs上面。用來在其餘實體間共享做業文件

MapReduce的運行步驟：

A. 首先是客戶端要編寫好mapreduce程序，配置好mapreduce的做業也就是job，接下來提交job到JobTracker上，這個時候JobTracker就會構建這個job，具體就是分配一個新的job任務的ID值

B. 接下來jobtracker檢查就是輸出目錄是否存在，若是存在那麼job就不能正常運行下去，JobTracker會拋出錯誤給客戶端；檢查輸入目錄是否存在，若是不存在一樣拋出錯誤.。若是存在JobTracker會根據輸入，計算輸入分片（Input Split），並配置Job須要的資源。

C. 分配好資源後，JobTracker初始化做業job，初始化主要作的是將Job放入一個內部的隊列，讓配置好的做業調度器能調度到這個做業，做業調度器會初始化這個job，初始化就是建立一個正在運行的job對象（封裝任務和記錄信息），以便JobTracker跟蹤job的狀態和進程。

D. 初始化完畢後，做業調度器會獲取輸入分片信息（input split），每一個分片建立一個map任務。

E. 接下來進行任務分配，tasktracker會運行一個簡單的循環機制按期發送心跳給jobtracker，心跳間隔是5秒，程序員能夠配置這個時間，心跳就是jobtracker和tasktracker溝通的橋樑，經過心跳，jobtracker能夠監控tasktracker是否存活，也能夠獲取tasktracker處理的狀態和問題，同時tasktracker也能夠經過心跳裏的返回值獲取jobtracker給它的操做指令。

F. 執行任務。在任務執行時候jobtracker能夠經過心跳機制監控tasktracker的狀態和進度，同時也能計算出整個job的狀態和進度，而tasktracker也能夠本地監控本身的狀態和進度。當jobtracker得到了最後一個完成指定任務的tasktracker操做成功的通知時候，jobtracker會把整個job狀態置爲成功，而後當客戶端查詢job運行狀態時候，客戶端會查到job完成的通知。

（2）

在Hadoop中，一個MapReduce做業會把輸入的數據集切分爲若干獨立的數據塊，由Map任務以徹底並行的方式處理；框架會對Map的輸出先進行排序，而後把結果輸入給Reduce任務；做業的輸入和輸出都會被存儲在文件系統中，整個框架負責任務的調度和監控，以及從新執行已經關閉的任務；MapReduce框架和分佈式文件系統是運行在一組相同的節點，計算節點和存儲節點都是在一塊兒的。

MapReduce做業的處理流程簡略圖：

按照時間順序包括：輸入分片（input split）、map階段、combiner階段和reduce階段。

輸入分片（input split）：在進行map計算以前，mapreduce會根據輸入文件計算輸入分片（input split），每一個輸入分片（input split）針對一個map任務。輸入分片（input split）存儲的並不是數據自己，而是一個分片長度和一個記錄數據的位置的數組，輸入分片（input split）每每和hdfs的block（塊）關係很密切；map階段：程序員編寫map函數，所以map函數效率相對好控制，並且通常map操做都是本地化操做也就是在數據存儲節點上進行；Combiner階段：是一個本地化的reduce操做，它是map運算的後續操做，主要是在map計算出中間文件前作一個簡單的合併重複key值的操做；shuffle階段：將map的輸出做爲reduce的輸入的過程就是shuffle；reduce階段：和map函數同樣也是程序員編寫的，最終結果是存儲在hdfs上的。