HDFS集羣中以Master-Slave模式運行,主要有兩類節點:一個Namenode節點(即master)和多個Datanode節點。Namenode管理文件系統的Namespace.他維護着文件系統樹以及文件樹中全部的文件和文件夾的元數據。node
hdfs架構圖:編程
Namenode:網絡
Namenode管理文件系統的Namespace。它維護着文件系統樹以及文件樹中全部的文件和文件夾的元數據(Metadata).管理這些信息的文件有兩個,分別是Namespace鏡像文件(Namespace p_w_picpath)和操做日誌文件(edit log), 這些信息被Cache在RAM中,固然,這兩個文件也會被持久化存儲在本地磁盤。Namenode記錄着每一個文件中各個塊所在的數據節點的位置信息,可是它並不持久化存儲這些信息,由於這些信息會在系統重啓時從數據及節點重建。架構
Namenode結構抽象圖:ide
客戶端表明用戶與namenode和datanode交互來訪問整個文件系統。客戶端提供了一系列的文件系統接口,所以咱們在編程時,幾乎無需知道datanode和namenode,便可完成咱們所須要的功能。oop
Datanode:spa
Datanode是文件系統的工做節點,他們根據客戶端或者namenode的調度存儲和檢索數據,而且按期向namenode發送他們所存儲的塊(block)的列表.日誌
Namenode容錯機制:blog
沒有了Namenode,HDFS就不能工做。事實上,若是運行namenode的機器壞掉的話,系統中的文件將會徹底丟失,由於沒有其餘方法可以將位於不一樣datanode上的文件塊重建文件。所以,namenode的容錯機制很是重要,Hadoop提供了兩種容錯機制。接口
第一種方式:將持久化存儲在本地磁盤的文件系統元數據備份。Hadoop能夠經過配置來讓Namenode將它的持久化狀態寫道不一樣的文件系統中。這種寫操做時同步而且是原子化的。比較常見的配置是在將持久化狀態寫道本地磁盤的同時,也寫到遠端掛載的網絡文件系統。
第二種方式:是運行一個輔助的Namenode(Secondary Namenode).實時上Secondary Namenode並不能被用做Namenode它的主要做用是按期將namespace鏡像與操做日誌文件(edit log)合併,以防止操做日誌文件(edit log)變的過大。一般,Secondary Namenode 運行在一個單獨的物理機上,由於合併nameSpace鏡像的一個備份,若是namenode宕機了,這個備份就能夠用上。可是輔助namenode老是落後於namenode,因此在namenode宕機時,數據丟失時不可避免的。在這種狀況下,通常的,要結合第一種方式中提到的遠程掛載的網絡文件系統(NFS)中的namenode 的元數據文件來使用,把nfs中的namenode元數據文件,拷貝到輔助namenode並把輔助namenode做爲namenode來運行。