Hadoop 系列(一)基本概念

Hadoop 系列(一)基本概念

1、Hadoop 簡介

Hadoop 是一個由 Apache 基金會所開發的分佈式系統基礎架構,它可使用戶在不瞭解分佈式底層細節的情況下開發分佈式程序,充分利用集羣的威力進行高速運算和存儲。linux

從其定義就能夠發現,它解決了兩大問題:大數據存儲、大數據分析。也就是 Hadoop 的兩大核心:HDFS 和 MapReduce。程序員

  1. HDFS(Hadoop Distributed File System)是可擴展、容錯、高性能的分佈式文件系統,異步複製,一次寫入屢次讀取,主要負責存儲。算法

  2. MapReduce 爲分佈式計算框架,包含map(映射)和 reduce(歸約)過程,負責在 HDFS 上進行計算。sql

咱們先來了解下 Hadoop 的發展歷史,如圖 1-1 所示。shell

圖1-1 Hadoop發展歷史

2002~2004 年,第一輪互聯網泡沫剛剛破滅,不少互聯網從業人員都失業了。咱們們的「主角" Doug Cutting 也不例外,他只能寫點技術文章賺點稿費來養家餬口。可是 Doug Cutting 不甘寂寞,懷着對夢想和將來的渴望,與他的好朋友 Mike Cafarella 一塊兒開發出一個開源的搜索引擎 Nutch,並歷時一年把這個系統作到能支持億級網頁的搜索。可是當時的網頁數量遠遠不止這個規模,因此兩人不斷改進,想讓支持的網頁量再多一個數量級。數據庫

在 2003 年和 2004 年, Googles 分別公佈了 GFS 和 Mapreduce 兩篇論文。 Doug Cutting 和 Mike Cafarella 發現這與他們的想法不盡相同,且更加完美,徹底脫離了人工運維的狀態,實現了自動化。編程

在通過一系列周密考慮和詳細總結後,2006 年, Dog Cutting 放奔創業,隨後幾經周折加入了 yahoo 公司(Nutch 的部分也被正式引入),機綠巧合下,他以本身兒子的一個玩具大象的名字 Hadoop 命名了該項。服務器

當系統進入 Yahoo 之後,項目逐漸發展併成熟了起來。首先是集羣規模,從最開始幾十臺機器的規模發展到能支持上千個節點的機器,中間作了不少工程性質的工做;而後是除搜索之外的業務開發, Yahoo 逐步將本身廣告系統的數據挖掘相關工做也遷移到了 Hadoop 上,使 Hadoop 系統進一步成熟化了。網絡

2007 年,紐約時報在 100 個亞馬遜的虛擬機服務器上使用 Hadoop 轉換了 4TB 的圖片數據更加加深了人們對 Hadoope 的印象。數據結構

在 2008 年的時侯,一位 Google 的工程師發現要把當時的 Hadoop 放到任意一個集羣中去運是一件很困難的事情,因此就與幾個好朋友成立了ー個專門商業化 Hadoop 的公司 Cloudera。同年, Facebook 團隊發現他們不少人不會寫 Hadoop 的程序,而對 SQL 的一套東西很熟,因此他們就在 Hadoop 上構建了一個叫做 Hive 的軟件,專把 SQL 轉換爲 Hadoop 的 Mapreduce 程序。

2011年, Yahoo 將 Hadoop 團隊獨立出來,成立了ー個子公司 Hortonworks,專門提供 Hadoop 相關的服務。

說了這麼多,那 Hadoop 有哪些優勢呢?

Hadoop 是一個可以讓用戶輕鬆架構和使用的分佈式計算的平臺。用戶能夠輕鬆地在 Hadoop 發和運行處理海量數據的應用程序。其優勢主要有如下幾個:

(1) 高可靠性 : Hadoop 按位存儲和處理數據的能力值得人們信賴。

(2) 高擴展性 : Hadoop 是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇能夠方便地擴展到數以幹計的節點中。

(3) 高效性 : Hadoop可以在節點之間動態地移動數據,並保證各個節點的動態平衡,所以處理速度很是快。

(4) 高容錯性 : Hadoop可以自動保存數據的多個副本,而且可以自動將失敗的任務從新分。

(5) 低成本 : 與一體機、商用數據倉庫以及 QlikView、 Yonghong Z- Suites 等數據集市相比,Hadoop 是開源的,項目的軟件成本所以會大大下降。

Hadoop 帶有用 Java 語言編寫的框架,所以運行在 linux 生產平臺上是很是理想的, Hadoop 上的應用程序也可使用其餘語言編寫,好比 C++。

2、Hadoop 存儲 - HDFS

Hadoop 的存儲系統是 HDFS(Hadoop Distributed File System)分佈式文件系統,對外部客戶端而言,HDFS 就像一個傳統的分級文件系統,能夠進行建立、刪除、移動或重命名文件或文件夾等操做,與 Linux 文件系統相似。

可是,Hadoop HDFS 的架構是基於一組特定的節點構建的(見圖s),這些節稱節點(NameNode,僅一個),它在 HDFS 內部提供元數據服務;第二名稱節點(Secondary NameNode),名稱節點的幫助節點,主要是爲了整合元數據操做(注意不是名稱節點的備份);數據節點(DataNode),它爲 HDFS 提供存儲塊。因爲僅有一個 NameNode,所以這是 HDFS 的一個缺點(單點失敗,在 Hadoop2.x 後有較大改善)。

圖1-2 Hadoop HDFS架構

存儲在 HDFS 中的文件被分紅塊,而後這些塊被複制到多個數據節點中(DataNode),這與傳統的 RAID 架構大不相同。塊的大小(一般爲 128M)和複製的塊數量在建立文件時由客戶機決定。名稱節點能夠控制全部文件操做。HDFS 內部的全部通訊都基於標準的 TCP/IP 協議。

關於各個組件的具體描述以下所示:

(1)名稱節點(NameNode)

它是一個一般在HDFS架構中單獨機器上運行的組件,負責管理文件系統名稱空間和控制外部客戶機的訪問。NameNode決定是否將文件映射到DataNode上的複製塊上。對於最多見的3個複製塊,第一個複製塊存儲在同一機架的不一樣節點上,最後一個複製塊存儲在不一樣機架的某個節點上。

(2)數據節點(DataNode)

數據節點也是一個一般在HDFS架構中的單獨機器上運行的組件。Hadoop集羣包含一個NameNode和大量DataNode。數據節點一般以機架的形式組織,機架經過一個交換機將全部系統鏈接起來。

數據節點響應來自HDFS客戶機的讀寫請求。它們還響應來自NameNode的建立、刪除和複製塊的命令。名稱節點依賴來自每一個數據節點的按期心跳(heartbeat)消息。每條消息都包含一個塊報告,名稱節點能夠根據這個報告驗證塊映射和其餘文件系統元數據。若是數據節點不能發送心跳消息,名稱節點將採起修復措施,從新複製在該節點上丟失的塊。

(3)第二名稱節點(Secondary NameNode)

第二名稱節點的做用在於爲HDFS中的名稱節點提供一個Checkpoint,它只是名稱節點的一個助手節點,這也是它在社區內被認爲是Checkpoint Node的緣由。

如圖 1-3 所示,只有在NameNode重啓時,edits纔會合併到fsimage文件中,從而獲得一個文件系統的最新快照。可是在生產環境集羣中的NameNode是不多重啓的,這意味着當NameNode運行很長時間後,edits文件會變得很大。而當NameNode宕機時,edits就會丟失不少改動,如何解決這個問題呢?

圖1-3 名稱節點

fsimage 是 NameNode 啓動時對整個文件系統的快照;edits 是在 NameNode 啓動後對文件系統的改動序列。

如圖 1-4 所示,Secondary NameNode 會定時到 NameNode 去獲取名稱節點的 edits,並及時更新到本身 fsimage 上。這樣,若是 NameNode 宕機,咱們也可使用 Secondary-NameNode 的信息來恢復 NameNode。而且,若是 Secondary NameNode 新的 fsimage 文件達到必定閾值,它就會將其拷貝回名稱節點上,這樣 NameNode 在下次重啓時會使用這個新的 fsimage 文件,從而減小重啓的時間。

圖1-4 NameNode幫助節點Secondary NameNode

舉個數據上傳的例子來深刻理解下HDFS內部是怎麼作的,如圖 1-5 所示。

圖1-5 HDFS文件上傳

文件在客戶端時會被分塊,這裏能夠看到文件被分爲 5 個塊,分別是:A、B、C、D、E。同時爲了負載均衡,因此每一個節點有 3 個塊。下面來看看具體步驟:

  1. 客戶端將要上傳的文件按 128M 的大小分塊。

  2. 客戶端向名稱節點發送寫數據請求。

  3. 名稱節點記錄各個 DataNode 信息,並返回可用的 DataNode 列表。

  4. 客戶端直接向 DataNode 發送分割後的文件塊,發送過程以流式寫入。

  5. 寫入完成後,DataNode 向 NameNode 發送消息,更新元數據。

這裏須要注意:

  1. 寫 1T 文件,須要 3T 的存儲,3T 的網絡流量。

  2. 在執行讀或寫的過程當中,NameNode 和 DataNode 經過 HeartBeat 進行保存通訊,肯定 DataNode 活着。若是發現 DataNode 死掉了,就將死掉的 DataNode 上的數據,放到其餘節點去,讀取時,讀其餘節點。

  3. 宕掉一個節點不要緊,還有其餘節點能夠備份;甚至,宕掉某一個機架也不要緊;其餘機架上也有備份。

3、Hadoop 計算 — MapReduce

MapReduce 是 Google 提出的一個軟件架構,用於大規模數據集(大於1TB)的並行運算。概念「Map(映射)」和「Reduce(概括)」以及它們的主要思想,都是從函數式編程語言借來的,還有從矢量編程語言借來的特性。

當前的軟件實現是指定一個 Map(映射)函數,用來把一組鍵值對映射成一組新的鍵值對,指定併發的 Reduce(概括)函數,用來保證全部映射的鍵值對中的每個共享相同的鍵組,如圖 1-6 所示。

圖1-6 Map/Reduce簡單理解

下面將以 Hadoop 的「Hello World」例程—單詞計數來分析MapReduce的邏輯,如圖 1-7 所示。通常的 MapReduce 程序會通過如下幾個過程:輸入(Input)、輸入分片(Splitting)、Map階段、Shuffle階段、Reduce階段、輸出(Final result)。

圖1-7 Hadoop MapReduce單詞計數邏輯

  1. 輸入就不用說了,數據通常放在 HDFS 上面就能夠了,並且文件是被分塊的。關於文件塊和文件分片的關係,在輸入分片中說明。

  2. 輸入分片:在進行 Map 階段以前,MapReduce 框架會根據輸入文件計算輸入分片(split),每一個輸入分片會對應一個 Map 任務,輸入分片每每和 HDFS 的塊關係很密切。例如,HDFS 的塊的大小是 128M,若是咱們輸入兩個文件,大小分別是 27M、129M,那麼 27M 的文件會做爲一個輸入分片(不足 128M 會被看成一個分片),而 129MB 則是兩個輸入分片(129-128=1,不足 128M,因此 1M 也會被看成一個輸入分片),因此,通常來講,一個文件塊會對應一個分片。如圖 1-7 所示,Splitting 對應下面的三個數據應該理解爲三個分片。

  3. Map 階段:這個階段的處理邏輯其實就是程序員編寫好的 Map 函數,由於一個分片對應一個 Map 任務,而且是對應一個文件塊,因此這裏實際上是數據本地化的操做,也就是所謂的移動計算而不是移動數據。如圖 1-7 所示,這裏的操做其實就是把每句話進行分割,而後獲得每一個單詞,再對每一個單詞進行映射,獲得單詞和1的鍵值對。

  4. Shuffle 階段:這是「奇蹟」發生的地方,MapReduce 的核心其實就是 Shuffle。那麼 Shuffle 的原理呢?Shuffle 就是將 Map 的輸出進行整合,而後做爲 Reduce 的輸入發送給 Reduce。簡單理解就是把全部 Map 的輸出按照鍵進行排序,而且把相對鍵的鍵值對整合到同一個組中。如圖 1-7 所示,Bear、Car、Deer、River 是排序的,而且 Bear 這個鍵有兩個鍵值對。

  5. Reduce 階段:與 Map 相似,這裏也是用戶編寫程序的地方,能夠針對分組後的鍵值對進行處理。如圖 1-7 所示,針對同一個鍵 Bear 的全部值進行了一個加法操做,獲得 <Bear,2> 這樣的鍵值對。

  6. 輸出:Reduce 的輸出直接寫入 HDFS 上,一樣這個輸出文件也是分塊的。

說了這麼多,其實 MapReduce 的本質用一張圖能夠完整地表現出來,如圖 1-8 所示。

圖1-8 MapReduce本質

MapReduce 的本質就是把一組鍵值對 <K1,V1> 通過 Map 階段映射成新的鍵值對 <K2,V2>;接着通過 Shuffle/Sort 階段進行排序和「洗牌」,把鍵值對排序,同時把相同的鍵的值整合;最後通過 Reduce 階段,把整合後的鍵值對組進行邏輯處理,輸出到新的鍵值對 <K3,V3>。這樣的一個過程,其實就是 MapReduce 的本質。

Hadoop MapReduce 能夠根據其使用的資源管理框架不一樣,而分爲 MR v1 和 YARN/MR v2 版本,如圖 1-9 所示。

在 MR v1 版本中,資源管理主要是 Jobtracker 和 TaskTracker。Jobtracker 主要負責:做業控制(做業分解和狀態監控),主要是 MR 任務以及資源管理;而 TaskTracker 主要是調度 Job 的每個子任務 task;而且接收 JobTracker 的命令。

圖1-9 MapReduce發展歷史

在 YARN/MR v2 版本中,YARN 把 JobTracker 的工做分爲兩個部分:

  1. ResourceManager(資源管理器)全局管理全部應用程序計算資源的分配。

  2. ApplicationMaster 負責相應的調度和協調。

NodeManager 是每一臺機器框架的代理,是執行應用程序的容器,監控應用程序的資源(CPU、內存、硬盤、網絡)使用狀況,而且向調度器彙報。

4、Hadoop 資源管理 — YARN

在上一節中咱們看到,當 MapReduce 發展到 2.x 時就不使用 JobTracker 來做爲本身的資源管理框架,而選擇使用 YARN。這裏須要說明的是,若是使用 JobTracker 來做爲 Hadoop 集羣的資源管理框架的話,那麼除了 MapReduce 任務之外,不可以運行其餘任務。也就是說,若是咱們集羣的 MapReduce 任務並無那麼飽滿的話,集羣資源等因而白白浪費的。因此提出了另外的一個資源管理架構 YARN(Yet Another Resource Manager)。這裏須要注意,YARN 不是 JobTracker 的簡單升級,而是「大換血」。同時 Hadoop 2.X 也包含了此架構。Apache Hadoop 2.X 項目包含如下模塊。

  • Hadoop Common:爲 Hadoop 其餘模塊提供支持的基礎模塊。

  • HDFS:Hadoop:分佈式文件系統。

  • YARN:任務分配和集羣資源管理框架。

  • MapReduce:並行和可擴展的用於處理大數據的模式。

如圖 1-10 所示,YARN 資源管理框架包括 ResourceManager(資源管理器)、Applica-tionMaster、NodeManager(節點管理器)。各個組件描述以下。

圖1-10 YARN架構

(1)ResourceManager

ResourceManager 是一個全局的資源管理器,負責整個系統的資源管理和分配。它主要由兩個組件構成:調度器(Scheduler)和應用程序管理器(ApplicationManager,AM)。

Scheduler 負責分配最少但知足 Application 運行所需的資源量給 Application。Scheduler 只是基於資源的使用狀況進行調度,並不負責監視/跟蹤 Application 的狀態,固然也不會處理失敗的 Task。

ApplicationManager 負責處理客戶端提交的 Job 以及協商第一個 Container 以供 App-licationMaster 運行,而且在 ApplicationMaster 失敗的時候會從新啓動 ApplicationMaster(YARN 中使用 Resource Container 概念來管理集羣的資源,Resource Container 是資源的抽象,每一個 Container 包括必定的內存、IO、網絡等資源)。

(2)ApplicationMaster

ApplicatonMaster 是一個框架特殊的庫,每一個 Application 有一個 ApplicationMaster,主要管理和監控部署在 YARN 集羣上的各類應用。

(3)NodeManager

主要負責啓動 ResourceManager 分配給 ApplicationMaster 的 Container,而且會監視 Container 的運行狀況。在啓動 Container 的時候,NodeManager 會設置一些必要的環境變量以及相關文件;當全部準備工做作好後,纔會啓動該 Container。啓動後,NodeManager 會週期性地監視該 Container 運行佔用的資源狀況,如果超過了該 Container 所聲明的資源量,則會 kill 掉該 Container 所表明的進程。

如圖 1-11 所示,該集羣上有兩個任務(對應 Node二、Node6 上面的 AM),而且 Node2 上面的任務運行有 4 個 Container 來執行任務;而 Node6 上面的任務則有 2 個 Container 來執行任務。

5、Hadoop 生態系統

如圖 1-12 所示,Hadoop 的生態圈其實就是一羣動物在狂歡。咱們來看看一些主要的框架。

圖1-11 YARN集羣

圖1-12 Hadoop生態系統

(1)HBase

HBase(Hadoop Database)是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用 HBase 技術可在廉價 PC Server 上搭建起大規模結構化存儲集羣。

(2)Hive

Hive 是創建在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,能夠用來進行數據提取轉化加載(ETL),這是一種能夠存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。

(3)Pig

Pig 是一個基於 Hadoop 的大規模數據分析平臺,它提供的 SQL-LIKE 語言叫做 Pig Latin。該語言的編譯器會把類 SQL 的數據分析請求轉換爲一系列通過優化處理的 Map-Reduce 運算。

(4)Sqoop

Sqoop 是一款開源的工具,主要用於在 Hadoop(Hive)與傳統的數據庫(MySQL、post-gresql等)間進行數據的傳遞,能夠將一個關係型數據庫中的數據導入 Hadoop 的 HDFS 中,也能夠將 HDFS 的數據導入關係型數據庫中,如圖 1-13 所示。

(5)Flume

Flume 是 Cloudera 提供的一個高可用、高可靠、分佈式的海量日誌採集、聚合和傳輸的系統,Flume 支持在日誌系統中定製各種數據發送方,用於收集數據。同時,Flume 提供對數據進行簡單處理並寫到各類數據接受方(可定製)的能力,如圖 1-14 所示。

圖1-13 Sqoop功能

圖1-14 Flume數據傳輸

(6)Oozie

Oozie 是基於 Hadoop 的調度器,以 XML 的形式寫調度流程,能夠調度 Mr、Pig、Hive、shell、jar 任務等。

主要的功能以下。

  1. Workflow:順序執行流程節點,支持 fork(分支多個節點)、join(將多個節點合併爲一個)。

  2. Coordinator:定時觸發 Workflow。

  3. Bundle Job:綁定多個 Coordinator。

(7)Chukwa

Chukwa 是一個開源的、用於監控大型分佈式系統的數據收集系統。它構建在 Hadoop 的 HDFS 和 MapReduce 框架上,繼承了 Hadoop 的可伸縮性和魯棒性。Chukwa 還包含了一個強大和靈活的工具集,可用於展現、監控和分析已收集的數據。

(8)ZooKeeper

ZooKeeper 是一個開放源碼的分佈式應用程序協調服務,是 Google 的 Chubby 一個開源的實現,是 Hadoop 和 Hbase 的重要組件,如圖 1-15 所示。它是一個爲分佈式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分佈式同步、組服務等。

圖15-ZooKeeper架構

(9)Avro

Avro 是一個數據序列化的系統。它能夠提供:豐富的數據結構類型、快速可壓縮的二進制數據形式、存儲持久數據的文件容器、遠程過程調用 RPC。

(10)Mahout

Mahout 是 Apache Software Foundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地建立智能應用程序。Mahout 包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,經過使用 Apache Hadoop 庫,能夠有效地將 Mahout 擴展到雲中。


天天用心記錄一點點。內容也許不重要,但習慣很重要!

本文來自 《Hadoop與大數據挖掘》

相關文章
相關標籤/搜索