大數據教程(11.1)HA機制以及設計思路的分析

           上一章介紹了一些hadoop的實戰分析案例,本章將介紹hadoop的高可用以及初步認識hive。node

    1、Hadoop的HA機制
           前言:正式引入HA機制是從hadoop2.0開始,以前的版本中沒有HA機制;HA的運做機制:
         (1)hadoop-HA集羣運做機制介紹:所謂HA,即高可用(7*24小時不中斷服務),實現高可用最關鍵的是消除單點故障,hadoop-ha嚴格來講應該分紅各個組件的HA機制——HDFS的HA、YARN的HAmysql

         (2)HDFS的HA機制詳解:經過雙namenode消除單點故障,雙namenode協調工做的要點:
                  A、元數據管理方式須要改變:內存中各自保存一份元數據,Edits日誌只能有一份,只有Active狀態的namenode節點能夠作寫操做,兩個namenode均可以讀取edits,共享的edits放在一個共享存儲中管理(qjournal和NFS兩個主流實現)
                  B、須要一個狀態管理功能模塊:實現了一個zkfailover,常駐在每個namenode所在的節點,每個zkfailover負責監控本身所在namenode節點,利用zk進行狀態標識,當須要進行狀態切換時,由zkfailover來負責切換,切換時須要防止brain split(腦裂--在不少高可用系統中都或多或少存在這一的風險,如:基於keeperalived的mysql高可用主備架構)現象的發生。sql

    2、HA架構圖服務器

           a.hadoop的高可用機制架構

           b.hadoop的federation機制(name node容量的水平擴展)oop

    3、最後總結大數據

           hadoop的聯邦機制其實就至關因而將不一樣的服務器按照不一樣的磁盤進行分區,不一樣的分區各自負責不存儲不一樣的路徑下的服務;當是對外提供統一的訪問方式,可讓其在客戶端看起來是同一臺服務器同樣。在聯邦機制下,全部name node節點的clusterID必須配置成同樣,且聯邦機制下的data node是對所有name node共享的,在data node上blockPool目錄可能有多個,分別對應不一樣的name node(HA)集羣存的數據。HA集羣中因爲standby的存在,它能夠用來作checkpoint,因此不存在second name node這個節點。日誌

           最後寄語,以上是博主本次文章的所有內容,若是你們以爲博主的文章還不錯,請點贊;若是您對博主其它服務器大數據技術或者博主本人感興趣,請關注博主博客,而且歡迎隨時跟博主溝通交流。blog

相關文章
相關標籤/搜索