《大數據技術原理與應用》暑假學習計劃_04 - 分佈式文件系統HDFS

《大數據技術原理與應用》暑假學習計劃_04 - 分佈式文件系統HDFS

塊?分佈式文件系統HDFS最核心的內容。分佈式文件系統HDFS上的文件也被劃分爲塊大小的多個分塊做爲獨立的存儲單元。服務器

與一般的磁盤文件系的聯繫是:都是爲了分攤磁盤讀寫開銷也就是在大量數據間分攤磁盤尋址的開銷。分佈式

與一般的磁盤文件系統不一樣的是:HDFS中小於一個塊大小的文件不會佔據整個塊的空間(當一個1MB的文件存儲在一個128MB的塊中時,文件只使用1MB的磁盤空間,而不是128MB)性能

爲何要設計塊?①:支持向大規模數據存儲 ②:下降分佈式節點開銷學習

塊的優勢:大規模文件存儲,簡化系統設計,適合數據備份。大數據

塊的缺點:Map Reduce分佈式處理不太好。設計

分佈式文件系統HDFS兩大組件

名稱節點Name Node→整個HDFS集羣的管家→數據目錄→元數據對象

  1. 文件是什麼?
  2. 文件被分紅多少塊?
  3. 每一個塊和文件之間是怎麼映射的?
  4. 每一個塊被存儲在那個服務器上?

名稱節點blog

  1. FsImage

保存系統文件樹:文件複製等級,塊大小以及組成文件的塊,修改和訪問的時間,訪問權限。it

  1. EditLog

記錄對數據進行的建立,刪除,重命名等操做。集羣

第二名稱節點:

對EditLog處理,名稱節點的冷備份。

數據節點Data Node→存儲實際數據

分佈式文件系統HDFS體系結構的侷限性?

  1. 節點容納對象個數受空間大小限制
  2. 性能瓶頸
  3. 不一樣應用程序隔離問題
  4. 集羣可用性

分佈式文件系統HDFS數據冗餘保存?

以塊爲單位通常備份三份,能夠加快數據傳輸速度(並行操做),並且很容易檢查數據錯誤,同時能夠保證數據的可靠性。

數據讀取方式:就近讀取

數據錯誤與恢復:

  1. 名稱節點錯誤→第二名稱節點恢復
  2. 數據節點故障→宕機→備份恢復,數據塊均衡分配
  3. 數據出錯→效驗碼對比判斷恢復

HDFS的數據讀寫過程?

最後附課堂練習實例運行截圖:

相關文章
相關標籤/搜索