MapReduce的核心資料索引 [轉]


按以下順序看效果最佳: html

1.       MapReduce Simplied Data Processing on Large Clustersjava

2.       Hadoop環境的安裝 By 徐偉ios

3.       Parallel K-Means Clustering Based on MapReduce程序員

4.       《Hadoop權威指南》的第一章和第二章web

5.       迭代式MapReduce框架介紹   董的博客算法

6.       HaLoop: Efficient Iterative Data Processing on Large Clusterssql

7.       Twister: A Runtime for Iterative MapReduce數據庫

8.       迭代式MapReduce解決方案(一)編程

9.       迭代式MapReduce解決方案(二)

10.   迭代式MapReduce解決方案(三)

11.   Granules: A Lightweight, Streaming Runtime for Cloud Computing With Support for Map-Reduce

12.   On the Performance of Distributed Data Clustering Algorithms in File and Streaming Processing Systems

13.   Spark: Cluster Computing with Working Set

14.   iMapReduce: A Distributed Computing Framework for Iterative Computation

15.   《Hadoop權威指南》的第三章到第十章

16.   Map-Reduce-Merge: Simplified Relational Data Processing on Large Clusters

17.   Clustering Very Large Multi-dimensional Datasets with MapReduce

18.   HBase環境的安裝 By 徐偉 + HBase 測試程序


Ps:簡單講解一下上面的流程,MapReduce計算模型就是Google在(1)中提出來的,必定要仔細看這篇論文,我當初由於看的不夠仔細走了不少的彎路。Hadoop是一個開源的MapReduce計算模型實現,按照(2)來安裝,以及跑一遍Word Count程序,基本上就算是入門了。(3)這篇文章價值不大,可是能夠經過其看一下K-Means算法是如何MapReduce化的,之後就能夠觸類旁通了。(4)的做用就是加深對(1-3)的理解。從(5)開始就能夠進入迭代MapReduce的子領域了,董是這方面的大牛。(6)(7)是(5)中提到的兩篇論文,(5-7)都要仔細的看,把迭代MapReduce的基礎打牢。(8-10)也是董的文章,加深一下對迭代MapReduce問題的理解。(11)(12)是Jaliya Ekanayake、Shrideep Pallickara合做的文章,他們是國外迭代MapReduce領域的發文章最多的兩我的。(13)是伯克利大學的迭代MapReduce的文章,Spark是全部實驗室產品中惟一已經商用推廣的,贊!(14)這篇文章,我看的不是很細緻,可是Collector的靈感就是來源於這篇文章。這個時候估計你已經有本身的解決方案了,要編程實現本身的設計了,須要仔細的看(15)了。(16) Map-Reduce-Merge我們實驗室曾經作過的一個問題。(17)這篇文章+Canopy算法,能夠得出一些關於用MapReduce實現高質量數據抽樣的思路。(18)若是須要使用HBase,能夠參考這篇文章。

posted @ 2013-03-06 21:29 南宮星海 閱讀(17) 評論(0)  編輯



一個分佈式系統基礎架構,由Apache基金會開發。用戶能夠在不瞭解分佈式底層細節的狀況下,開發分佈式程序。充分利用集羣的威力高速運算和存儲。Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有着高容錯性的特色,而且設計用來部署在低廉的(low-cost)硬件上。並且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣能夠流的形式訪問(streaming access)文件系統中的數據。




Hadoop [1] 這 個名字不是一個縮寫,它是一個虛構的名字。該項目的建立者,Doug Cutting如此解釋Hadoop的得名:「這個名字是我孩子給一個棕黃色的大象樣子的填充玩具命名的。個人命名標準就是簡短,容易發音和拼寫,沒有太 多的意義,而且不會被用於別處。小孩子是這方面的高手。」[Hadoop: The Definitive Guide]




Hadoop 由 Apache Software Foundation 公司於 2005 年秋天做爲 Lucene的子

  Hadoop logo

項目 Nutch的一部分正式引入。它受到最早由 Google Lab 開發的 Map/Reduce 和 Google File System(GFS) 的啓發。2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被歸入稱爲 Hadoop 的項目中。


Hadoop 是最受歡迎的在 Internet 上對搜索關鍵字進行內容分類的工具,但它也能夠解決許多要求極大伸縮性的問題。例如,若是您要 grep 一個 10TB 的巨型文件,會出現什麼狀況?在傳統的系統上,這將須要很長的時間。可是 Hadoop 在設計時就考慮到這些問題,採用並行執行機制,所以能大大提升效率。




Hadoop 是一個可以對大量數據進行分佈式處理的軟件框架。可是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,由於它假設計算元素和存儲會失敗,所以它維護多個工做數據副本,確保可以針對失敗的節點從新分佈處理。Hadoop 是高效的,由於它以並行的方式工做,經過並行處理加快處理速度。Hadoop 仍是可伸縮的,可以處理 PB 級數據。此外,Hadoop 依賴於社區服務器,所以它的成本比較低,任何人均可以使用。












Hadoop帶有用 Java 語言編寫的框架,所以運行在 Linux 生產平臺上是很是理想的。Hadoop 上的應用程序也可使用其餘語言編寫,好比 C++。




Hadoop 有許多元素構成。其最底部是 Hadoop Distributed File System [2](HDFS),它存儲 Hadoop 集羣中全部存儲節點上的文件。HDFS(對於本文)的上一層是 MapReduce 引擎,該引擎由 JobTrackers 和 TaskTrackers 組成。




對外部客戶機而言,HDFS 就像一個傳統的分級文件系統。能夠建立、刪除、移動或重命名文 件,等等。可是 HDFS 的架構是基於一組特定的節點構建的(參見圖 1),這是由它自身的特色決定的。這些節點包括 NameNode(僅一個),它在 HDFS 內部提供元數據服務;DataNode,它爲 HDFS 提供存儲塊。因爲僅存在一個 NameNode,所以這是 HDFS 的一個缺點(單點失敗)。


存儲在 HDFS 中的文件被分紅塊,而後將這些塊複製到多個計算機中(DataNode)。這與傳統的 RAID 架構大不相同。塊的大小(一般爲 64MB)和複製的塊數量在建立文件時由客戶機決定。NameNode 能夠控制全部文件操做。HDFS 內部的全部通訊都基於標準的 TCP/IP 協議。




NameNode 是一個一般在 HDFS 實例中的單獨機器上運行的軟件。它負責管理文件系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的複製塊上。對於最多見的 3 個複製塊,第一個複製塊存儲在同一機架的不一樣節點上,最後一個複製塊存儲在不一樣機架的某個節點上。注意,這裏須要您瞭解集羣架構。


實際的 I/O 事務並 沒有通過 NameNode,只有表示 DataNode 和塊的文件映射的元數據通過 NameNode。當外部客戶機發送請求要求建立文件時,NameNode 會以塊標識和該塊的第一個副本的 DataNode IP 地址做爲響應。這個 NameNode 還會通知其餘將要接收該塊的副本的 DataNode。


NameNode 在一個稱爲 FsImage 的文件中存儲全部關於文件系統名稱空間的信息。這個文件和一個包含全部事務的記錄文件(這裏是 EditLog)將存儲在 NameNode 的本地文件系統上。FsImage 和 EditLog 文件也須要複製副本,以防文件損壞或 NameNode 系統丟失。




DataNode 也是一個一般在 HDFS 實例中的單獨機器上運行的軟件。Hadoop 集羣包含一個 NameNode 和大量 DataNode。DataNode 一般以機架的形式組織,機架經過一個交換機將全部系統鏈接起來。Hadoop 的一個假設是:機架內部節點之間的傳輸速度快於機架間節點的傳輸速度。


DataNode 響應來自 HDFS 客戶機的讀寫請求。它們還響應來自 NameNode 的建立、刪除和複製塊的命令。NameNode 依賴來自每一個 DataNode 的按期心跳(heartbeat)消息。每條消息都包含一個塊報告,NameNode 能夠根據這個報告驗證塊映射和其餘文件系統元數據。若是 DataNode 不能發送心跳消息,NameNode 將採起修復措施,從新複製在該節點上丟失的塊。




可 見,HDFS 並非一個萬能的文件系統。它的主要目的是支持以流的形式訪問寫入的大型文件。若是客戶機想將文件寫到 HDFS 上,首先須要將該文件緩存到本地的臨時存儲。若是緩存的數據大於所需的 HDFS 塊大小,建立文件的請求將發送給 NameNode。NameNode 將以 DataNode 標識和目標塊響應客戶機。同時也通知將要保存文件塊副本的 DataNode。當客戶機開始將臨時文件發送給第一個 DataNode 時,將當即經過管道方式將塊內容轉發給副本 DataNode。客戶機也負責建立保存在相同 HDFS 名稱空間中的校驗和(checksum)文件。在最後的文件塊發送以後,NameNode 將文件建立提交到它的持久化元數據存儲(在 EditLog 和 FsImage 文件)。


Linux 集羣


Hadoop 框架可在單一的 Linux 平臺上使用(開發和調試時),可是使用存放在機架上的商業服務器才能發揮它的力量。這些機架組成一個 Hadoop 集羣。它經過集羣拓撲知識決定如何在整個集羣中分配做業和文件。Hadoop 假定節點可能失敗,所以採用本機方法處理單個計算機甚至全部機架的失敗。




Google的數據中心使用廉價的Linux PC機組成集羣,在上面運行各類應用。即便是分佈式開發的新手也能夠迅速使用Google的基礎設施。核心組件是3個:


⒈GFS(Google File System)。一個分佈式文件系統,隱藏下層負載均衡,冗餘複製等細節,對上層程序提供一個統一的文件系統API接口。Google根據本身的需求對它進行了特別優化,包括:超大文件的訪問,讀操做比例遠超過寫操做,PC機極易發生故障形成節點失效等。GFS把文件分紅64MB的塊,分佈在集羣的機器上,使用Linux的文件系統存放。同時每塊文件至少有3份以上的冗餘。中心是一個Master節點,根據文件索引,找尋文件塊。詳見Google的工程師發佈的GFS論文。










Hadoop 的最多見用法之一是 Web 搜索。雖然它不是唯一的軟件框架應用程序,但做爲一個並行數據處理引擎,它的表現很是突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程,它受到 Google開發的啓發。這個流程稱爲建立索引,它將 Web 爬行器檢索到的文本 Web 頁面做爲輸入,而且將這些頁面上的單詞的頻率報告做爲結果。而後能夠在整個 Web 搜索過程當中使用這個結果從已定義的搜索參數中識別內容。




最簡單的 MapReduce 應用程序至少包含 3 個部分:一個 Map 函數、一個 Reduce 函數和一個 main 函數。main 函數將做業控制和文件輸入/輸出結合起來。在這點上,Hadoop 提供了大量的接口和抽象類,從而爲 Hadoop 應用程序開發人員提供許多工具,可用於調試和性能度量等。


MapReduce 自己就是用於並行處理大數據集的軟件框 架。MapReduce 的根源是函數性編程中的 map 和 reduce 函數。它由兩個可能包含有許多實例(許多 Map 和 Reduce)的操做組成。Map 函數接受一組數據並將其轉換爲一個鍵/值對列表,輸入域中的每一個元素對應一個鍵/值對。Reduce 函數接受 Map 函數生成的列表,而後根據它們的鍵(爲每一個鍵生成一個鍵/值對)縮小鍵/值對列表。


這裏提供一個示例,幫助您理解它。假設輸入域是 one small step for man,one giant leap for mankind。在這個域上運行 Map 函數將得出如下的鍵/值對列表:


(one,1) (small,1) (step,1) (for,1) (man,1)

  MapReduce 流程的概念流

(one,1) (giant,1) (leap,1) (for,1) (mankind,1)


若是對這個鍵/值對列表應用 Reduce 函數,將獲得如下一組鍵/值對:


(one,2) (small,1) (step,1) (for,2) (man,1)(giant,1) (leap,1) (mankind,1)


結果是對輸入域中的單詞進行計數,這無疑對處理索引十分有用。可是,如今假設 有兩個輸入域,第一個是 one small step for man,第二個是 one giant leap for mankind。您能夠在每一個域上執行 Map 函數和 Reduce 函數,而後將這兩個鍵/值對列表應用到另外一個 Reduce 函數,這時獲得與前面同樣的結果。換句話說,能夠在輸入域並行使用相同的操做,獲得的結果是同樣的,但速度更快。這即是 MapReduce 的威力;它的並行功能可在任意數量的系統上使用。圖 2 以區段和迭代的形式演示這種思想。


如今回到 Hadoop 上,它是如何實現這個功能的?一個表明客戶機在單個主系統上啓動的 MapReduce 應用程序稱爲 JobTracker。相似於 NameNode,它是 Hadoop 集羣中唯一負責控制 MapReduce 應用程序的系統。在應用程序提交以後,將提供包含在 HDFS 中的輸入和輸出目錄。JobTracker 使用文件塊信息(物理量和位置)肯定如何建立其餘 TaskTracker 從屬任務。MapReduce 應用程序被複制到每一個出現輸入文件塊的節點。將爲特定節點上的每一個文件塊建立一個唯一的從屬任務。每一個 TaskTracker 將狀態和完成信息報告給 JobTracker。圖 3 顯示一個示例集羣中的工做分佈。


Hadoop 的這個特色很是重要,由於它並無將存儲移動到某個位置以供處理,而是將處理移動到存儲。這經過根據集羣中的節點數調節處理,所以支持高效的數據處理。

























































Hadoop Job Scheduler











