Hadoop 三劍客之 —— 分佈式文件存儲系統 HDFS

時間 2019-12-10

標籤 hadoop 劍客分佈式文件存儲系統 hdfs 欄目 Hadoop 简体版

原文原文鏈接

1、介紹

HDFS （Hadoop Distributed File System）是Hadoop下的分佈式文件系統，具備高容錯、高吞吐量等特性，能夠部署在低成本的硬件上。html

2、HDFS 設計原理

2.1 HDFS 架構

HDFS 遵循主/從架構，由單個NameNode(NN)和多個DataNode(DN)組成：node

NameNode : 負責執行有關文件系統命名空間的操做，例如打開，關閉、重命名文件和目錄等。它同時還負責集羣元數據的存儲，記錄着文件中各個數據塊的位置信息。
DataNode：負責提供來自文件系統客戶端的讀寫請求，執行塊的建立，刪除等操做。

2.2 文件系統命名空間

HDFS的文件系統命名空間的層次結構與大多數文件系統相似(如Linux)，支持目錄和文件的建立、移動、刪除和重命名等操做，支持配置用戶和訪問權限，但不支持硬連接和軟鏈接。NameNode負責維護文件系統名稱空間，記錄對名稱空間或其屬性的任何更改。git

2.3 數據複製

因爲Hadoop被設計運行在廉價的機器上，這意味着硬件是不可靠的，爲了保證容錯性，HDFS提供了數據複製機制。HDFS 將每個文件存儲爲一系列塊，每一個塊由多個副原本保證容錯，塊的大小和複製因子能夠自行配置（默認狀況下，塊大小是128M，默認複製因子是3）。github

2.4 數據複製的實現原理

大型的HDFS實例在一般分佈在多個機架的多臺服務器上，不一樣機架上的兩臺服務器之間經過交換機進行通信。在大多數狀況下，同一機架中的服務器間的網絡帶寬大於不一樣機架中的服務器之間的帶寬。所以HDFS採用機架感知副本放置策略，對於常見狀況，當複製因子爲3時，HDFS的放置策略是：apache

在寫入程序位於datanode上時，就優先將寫入文件的一個副本放置在該datanode上，不然放在隨機datanode上。以後在另外一個遠程機架上的任意一個節點上放置另外一個副本，並在該機架上的另外一個節點上放置最後一個副本。此策略能夠減小機架間的寫入流量，從而提升寫入性能。服務器

若是複製因子大於3，則隨機肯定第4個和以後副本的放置位置，同時保持每一個機架的副本數量低於上限，上限值一般爲（複製係數 - 1）/機架數量 + 2，須要注意的是不容許同一個dataNode上具備同一個塊的多個副本。網絡

2.5 副本的選擇

爲了最大限度地減小帶寬消耗和讀取延遲，HDFS在執行讀取請求時，優先讀取距離讀取器最近的副本。若是在與讀取器節點相同的機架上存在副本，則優先選擇該副本。若是HDFS羣集跨越多個數據中心，則優先選擇本地數據中心上的副本。架構

2.6 架構的穩定性

1. 心跳機制和從新複製

每一個DataNode按期向NameNode發送心跳消息，若是超過指定時間沒有收到心跳消息，則將DataNode標記爲死亡。NameNode不會將任何新的IO請求轉發給標記爲死亡的DataNode，也不會再使用這些DataNode上的數據。因爲數據再也不可用，可能會致使某些塊的複製因子小於其指定值，NameNode會跟蹤這些塊，並在必要的時候進行從新複製。框架

2. 數據的完整性

因爲存儲設備故障等緣由，存儲在DataNode上的數據塊也會發生損壞。爲了不讀取到已經損壞的數據而致使錯誤，HDFS提供了數據完整性校驗機制來保證數據的完整性，具體操做以下：分佈式

當客戶端建立HDFS文件時，它會計算文件的每一個塊的校驗和，並將校驗和存儲在同一HDFS命名空間下的單獨的隱藏文件中。當客戶端檢索文件內容時，它會驗證從每一個DataNode接收的數據是否與存儲在關聯校驗和文件中的校驗和匹配。若是匹配失敗，則證實數據已經損壞，此時客戶端會選擇從其餘DataNode獲取該塊的其餘可用副本。

3.元數據的磁盤故障

FsImage和EditLog是HDFS的核心數據，這些數據的意外丟失可能會致使整個HDFS服務不可用。爲了不這個問題，能夠配置NameNode使其支持FsImage和EditLog多副本同步，這樣FsImage或EditLog的任何改變都會引發每一個副本FsImage和EditLog的同步更新。