分佈式文件系統之數據塊（Block）

時間 2019-11-11

原文原文鏈接

衆所周知，HDFS中以數據塊（block）爲單位進行存儲管理。本文簡單介紹一下HDFS中數據塊（block）的概念，以及衆多分佈式存儲系統（不止是HDFS）使用block做爲存儲管理基本單位的意義。node

數據塊網絡

數據塊的概念並不陌生，在磁盤中，每一個磁盤都有默認的數據塊大小，這是磁盤進行數據讀/寫的最小單位，磁盤塊通常爲512字節。在分佈式文件系統中，數據塊通常遠大於磁盤塊的大小，而且爲磁盤塊大小的整數倍，例如，HDFS block size默認爲64MB。架構

分佈式存儲系統中選擇大block size的主要緣由是爲了最小化尋址開銷，使得磁盤傳輸數據的時間能夠明顯大於定位這個塊所需的時間。然而，在HDFS中block size也很差設置的過大，這是由於MapReduce中的map任務一般一次處理一個塊中的數據，所以若是block太大，則map數就會減小，做業運行的並行度就會受到影響，速度就會較慢。分佈式

Why blockoop

在不少分佈式文件系統中咱們均可以看到block的存在，這種設計的好處主要有如下幾點：學習

存儲的文件大小能夠大於集羣中任意一個磁盤的容量。這很好理解，文件被劃分到多個block中存儲，對磁盤透明；
使用block抽象而非整個文件做爲存儲單元，能夠極大簡化存儲子系統的設計。由於block size是統一的，所以一個節點上能夠存儲多少block就是能夠推算的；
Block 很是適合用於數據備份，進而提供數據容錯能力和可用性。

Why bigger block大數據

在普通文件系統中，使用較大的磁盤塊：spa