HDFS 01 - HDFS是什麼?它的適用場景有哪些?它的架構是什麼?

一、HDFS 是什麼

1.1 簡單介紹

在現代的企業環境中,單機容量過小,沒法存儲海量的數據,這時候就須要多機器存儲。node

—— 統一管理分佈在集羣上的文件,這樣的系統就稱爲分佈式文件系統。緩存

HDFS(Hadoop Distributed File System,Hadoop 分佈式文件系統),是 Apache Hadoop 項目的一個子項目。架構

咱們知道,Hadoop 天生就是爲了存儲海量數據(好比 TB 和 PB級別)而設計的,它的存儲系統就是 HDFS。app

HDFS 使用多臺計算機存儲文件,並提供統一的訪問接口,像是訪問一個普通文件系統同樣使用分佈式文件系統。分佈式

1.2 發展歷史

  1. Doug Cutting 在作 Lucene 的時候,須要編寫一個爬蟲服務,過程當中遇到了一些問題,諸如:如何存儲大規模的數據,如何保證集羣的可伸縮性,如何動態容錯等。oop

  2. 2003年的時候,Google 發佈了三篇論文,被稱做爲三駕馬車,其中有一篇叫作 GFS,描述了 Google 內部的一個叫作 GFS 的分佈式大規模文件系統,具備強大的可伸縮性和容錯性。性能

  3. Doug Cutting 後來根據 GFS 的論文, 創造了一個新的文件系統, 叫作 HDFS設計

二、HDFS 應用場景

2.1 適合的應用場景

  • 存儲很是大的文件:這裏很是大指的是成百上千 MB、GB,甚至 TB 級別的文件,須要高吞吐量,對延時沒有要求
  • 採用流式的數據訪問方式:即 一次寫入、屢次讀取,數據集常常從數據源生成或者拷貝一次,而後在其上作不少分析工做。
  • 運行於廉價的硬件上:不須要性能特別高的機器,可運行於普通廉價機器,節約成本。
  • 須要高容錯性,HDFS 有多副本機制,丟失/損壞必定個數的副本後,不影響文件的完整性。
  • 用做數據存儲系統,方便橫向擴展。

2.2 不適合的應用場景

  • 低延時的數據訪問:對延時要求在毫秒級別的應用,不適合採用 HDFS。HDFS 是爲高吞吐數據傳輸設計的,延時較高。blog

  • 大量小文件:HDFS 系統中,文件的元數據保存在 NameNode 的內存中, 文件數量會受限於 NameNode 的內存大小。接口

    一般,一個文件/目錄/文件塊的元數據內存空間約=150Byte。若是有100萬個文件,每一個文件佔用1個 block,則須要大約300MB的內存。所以十億級別的文件數量在現有商用機器上難以支持。

  • 多方讀寫,須要任意的文件修改:HDFS採用追加(append-only)的方式寫入數據。不支持文件任意 offset 的修改,也不支持多個寫入器(writer)。

三、HDFS 的架構

HDFS是一個 主/從(Mater/Slave)體系結構,HDFS由四部分組成,分別是:

HDFS Client、NameNode、DataNode 和 SecondaryNameNode。

一、Client:就是客戶端。

  • 文件切分。文件上傳 HDFS 的時候,Client 將文件切分紅多個塊(block),而後存儲。
  • 與 NameNode 交互,獲取文件的位置信息。
  • 與 DataNode 交互,讀取、寫入數據。
  • Client 提供一些命令來管理和訪問 HDFS,好比啓動、關閉 HDFS。

二、NameNode:就是 master,是管理者。

  • 管理 HDFS 的名稱空間。
  • 管理數據塊(block)映射信息。
  • 配置副本策略。
  • 處理客戶端的讀寫請求。

三、DataNode:就是 Slave。NameNode 下達命令,DataNode 執行實際的操做。

  • 存儲實際的數據塊。
  • 執行數據塊的讀/寫操做。

四、Secondary NameNode:不是 NameNode 的熱備份 —— NameNode 掛掉的時候,它並不能立刻替換 NameNode 並提供服務。

  • 輔助 NameNode,分擔其工做量。
  • 按期合併 fsimage 和 fsedits,並推送給 NameNode。
  • 在緊急狀況下,可輔助恢復 NameNode。

四、NameNode 和 DataNode

4.1 NameNode 的做用

NameNode 在內存中保存着整個文件系統的名稱空間和文件數據塊的地址映射。

HDFS 集羣可存儲的文件個數受限於 NameNode 的內存大小 。

一、NameNode 存儲元數據信息

元數據包括:文件名,文件目錄結構,文件屬性(生成時間、副本數、權限等),每一個文件的塊列表,以及列表中的塊與塊所在的DataNode 之間的地址映射關係;

在內存中加載每一個文件和每一個數據塊的引用關係(文件、block、DataNode之間的映射信息);

數據會按期保存到本地磁盤(fsImage 文件和 edits 文件)。

二、NameNode 文件元數據的操做

DataNode 負責處理文件內容的讀寫請求,數據流不會通過 NameNode,而是從 NameNode 獲取數據真正要流向的 DataNode。

三、NameNode 副本

文件數據塊到底存放到哪些 DataNode 上,是由 NameNode 決定的,它會根據全局的狀況(機架感知機制),作出副本存放位置的決定。

四、NameNode 心跳機制

全權管理數據塊的複製,週期性的接受心跳和塊的狀態報告信息(包含該DataNode上全部數據塊的列表)
若接受到心跳信息,NameNode認爲DataNode工做正常,若是在10分鐘後還接受到不到DN的心跳,那麼NameNode認爲DataNode已經宕機 ,這時候NN準備要把DN上的數據塊進行從新的複製。 塊的狀態報告包含了一個DN上全部數據塊的列表,blocks report 每一個1小時發送一次.

4.2 DataNode 的做用

提供真實文件數據的存儲服務。

  1. DataNode 以數據塊的形式存儲 HDFS 文件

  2. DataNode 響應 HDFS 客戶端的讀寫請求

  3. DataNode 週期性向 NameNode 彙報心跳信息

  4. DataNode 週期性向 NameNode 彙報數據塊信息

  5. DataNode 週期性向 NameNode 彙報緩存數據塊信息

版權聲明

做者:瘦風(https://healchow.com)

出處:博客園-瘦風的南牆(https://www.cnblogs.com/shoufeng)

感謝閱讀,公衆號 「瘦風的南牆」 ,手機端閱讀更佳,還有其餘福利和心得輸出,歡迎掃碼關注🤝

本文版權歸博主全部,歡迎轉載,但 [必須在頁面明顯位置標明原文連接],不然博主保留追究相關人士法律責任的權利。

相關文章
相關標籤/搜索