以前幾周的時間一直是在圍繞DKhadoop的運行環境搭建寫分享,有一些朋友留言索要了dkhadoop安裝包,不知道有沒有去下載安裝一探究竟。關於DKHadoop下載安裝基本已經講清楚了,這幾天有點空閒把大快DKM大數據運維管理平臺的內容整理了一些,做爲DKHadoop相配套的管理平臺,是有必要對DKM有所瞭解的。
DKM 是DKHadoop管理平臺。做爲大數據平臺端到端Apache Hadoop 的管理應用,DKM 對 DKH 的每一個部件都提供了細粒度的可視化和控制。經過DKM ,運維人員是能夠提升集羣的性能,提高服務質量,提升合規性並下降管理成本。
DKM 設計的目的是爲了使得對於企業數據中心的管理變得簡單和直觀。經過DKM ,能夠方便地部署,而且集中式的操做完整的大數據軟件棧。該應用軟件會自動化安裝過程,從而減小了部署集羣的時間。經過DKM 能夠提供一個集羣範圍內的節點實時運行狀態視圖。同時,還提供了一箇中央控制檯,能夠用於配置集羣。總結DKM 可以提供的功能主要有如下幾點:
1.自動化Hadoop 安裝過程,大幅縮短部署時間;
2.提供實時的集羣概況,例如節點,服務的運行情況;
3.提供了集中的中央控制檯對集羣的配置進行更改;
4.包含全面的報告和診斷工具,幫助優化性能和利用率;
基本功能:DKM的基本功能主要能夠分爲四大模塊:管理功能,監控功能,診斷功能和集成功能。本篇咱們就先來看如下管理功能:
一、批量部署
咱們都知道Hadoop 自己是一個分佈式的系統,所以在安裝時,須要對每個節點進行組件的安裝,而且因爲是開源軟件,其安裝過程相對比較複雜,Hadoop 每一個組件都須要作不少的配置工做,這一點相信各位深有體會。DKH 提供了DKM 來自動化安裝部署Hadoop 。 大大縮短了Hadoop 的安裝時間,同時也簡化了安裝Hadoop 的過程。(DKHADOOP安裝步驟請參考此前分享的文章)
自動化安裝的過程以下:
1.安裝環境準備,下載DKM 以及DKH 的安裝文件,安裝JDK,yum 等基本軟件。
2.挑選一臺節點,安裝DKM ,用戶只須要啓動安裝腳本便可,一般狀況下幾分鐘就可以完成。
3.DKM 是一個web 應用,提供了基於瀏覽器的界面,用戶能夠經過瀏覽器可視化的進行DKH的安裝部署。
4.經過DKM 界面,添加其餘須要的安裝的節點,選擇要安裝的Hadoop 組件,以及每一個節點承擔的角色,選擇安裝,DKM 會自動地將須要安裝的軟件分發到對應的節點,並完成安裝。
5.當全部節點的軟件都安裝完成以後,DKM 會啓動全部的服務。從上述的安裝過程能夠看出DKH 的安裝主要體現兩個特色,批量化以及自動化。只須要在其中一個節點完成,其餘節點均可以進行批量化的自動安裝。
二、集羣配置
(1)可視化參數配置界面
Hadoop 包含許多的組件,不一樣的組件都包含各類各樣的配置, 而且分佈於不一樣的主機之上。 DKM 針對這種狀況提供了界面化的參數配置功能,而且可以自動的部署到每一個節點。
(2)高可靠配置
DKM 對關鍵的組件使用HA部署方案,避免單點失效的發生,同時DKH 對於組件的異常錯誤提供了自動恢復處理,最大限度的保證服務的可靠性。
(3)HDFS 高可靠
在標準配置中,NameNode 是HDFS羣集中的單點故障(SPOF)。每一個羣集都具備一個NameNode ,若是機器或進程變爲不可用,羣集總體將變爲不可用,直到NameNode 在新主機上從新啓動或上線。Secondary NameNode 不提供故障轉移功能。 爲了讓「備用」 NameNode 的狀態與「活動」NameNode 在此實施中保持同步,兩個節點均與一組名爲JournalNode 的獨立後臺程序進行通訊。由「活動」NameNode 執行任何Namespace 修改時,它會持續記錄其中大部分JournalNode 的修改記錄。 「備用」NameNode 可以從JournalNode 讀取編輯操做,並不斷監視它們以瞭解編輯日誌發生的更改。當備用節點發現編輯操做時,它會將這些編輯應用於本身的Namespace 。在發生故障轉移時,備用節點將確保首先從JournalNode 讀取全部的編輯操做,而後纔會將本身升級爲「活動狀態」。這確保了再發生故障轉移以前徹底同步Namespace 狀態。
爲了提供快速故障轉移,備用NameNode 還須要擁有有關羣集中的塊位置的最新信息。爲實現這一目的,DataNode 配置了這兩個NameNode的位置,它們會將這塊位置信息和檢測信號發送給這兩個NameNode。
一次只能有其中一個NameNode 處於活動狀態,這一點對於HA羣集的正常運行來講相當重要。不然,Namespace 狀態會在二者之間快速出現分歧,從而致使數據丟失風險或其餘不正確的結果。爲了確保此屬性並防止所謂的「大腦分裂情況」,JournalNode 一次只容許一個NameNode 成爲寫入程序。在故障轉移過程當中,要進入「活動」狀態的NameNode 將接管JournalNode的寫入角色,這會有效地阻止其它NameNode繼續保持「活動」狀態,使得新的「活動」NameNode能夠安全地繼續執行故障轉移。
DKH 默認開啓了HA . 用戶不用擔憂此問題。
(4)YARN 高可靠
YARN ResourceManager(RM) 負責跟蹤羣集中的資源並安排應用程序(例如,MapReduce做業)。RM 高可用性(HA)功能以活動/待機 RM 對形式添加冗餘,以刪除此單點故障。此外,在從待機RM 到活動RM 進行故障轉移時,應用程序能夠從其上次檢查點狀態恢復; 例如,在MapReduce 做業中完成的map 任務不在後續的嘗試中從新運行。這樣能夠在不對運行中的應用程序產生任何重要性能影響的狀況下,處理如下事件:
計劃外事件,如計算機崩潰。
計劃內維護事件,如在運行ResourceManager的計算機上進行的軟件或硬件升級。
RM HA 要求Zookeeper 和HDFS 服務處於運行狀態。RM HA 經過活動-待機RM 對的方式實施。啓動時,每一個RM 處於待機狀態;啓動過程,但未加載狀態。轉換到活動狀態時,RM會從指定的狀態存儲加載內部狀態,並啓動全部內部服務。 管理員(經過CLI)或經過集成的故障轉移控制器(啓用自動故障轉移時)可促進轉換爲活動狀態。
DKH 默認開啓了Resource Manager HA 。用戶不須要擔憂。
三、權限管理
對系統管理員,數據庫管理員及其餘管理員必須授予不一樣級別的管理權限。web