HDFS

HDFS:Hadoop分佈式文件系統算法

特性:一、可擴展,高性能,適用於特定類型的應用,不是通用的分佈式文件系統。緩存

   二、HDFS針對高速流式讀取,對隨機查找性能差分佈式

   三、支持寫入、刪除、追加和讀取,不支持更新。它假定的應用場景是數據一次性寫入HDFS,而後屢次讀取(訪問模型)。oop

   四、HDFS不提供本地數據緩存機制,每次讀取都是從源文件讀取,由於是大數據,因此若是設緩存機制的話,那麼緩存的開銷將特別大。性能

存儲:一、HDFS被實現爲一種塊結構的文件系統。一個文件能夠由多個塊組成,這些塊大小固定,存儲在不一樣的DataNode。大數據

   二、每一個塊保存在哪一個DataNode機器上是隨機選取的,因此訪問一個文件一般要訪問多個DataNode(這樣不只支持很大的文件,並且可並行讀取)。日誌

   三、DataNode在本地文件系統上以單獨文件的形式保存各個HDFS數據塊,並將其放在由啓發式算法建立的目錄下來,啓發式算法主要是肯定每一個目錄下最優文件數目,來建立子目錄。事務

   四、NameNode保存了整個集羣文件系統的全部元數據(關於塊的信息,僅包含文件名、訪問權限、塊的位置),元數據保存在內存中,方便訪問,也持久化到NameNode本地文件系統中。內存

   五、整個文件系統名稱空間(包括到文件的映秀以及文件系統屬性)包含在一個名爲FsImage的文件中,該文件保存在NameNode的本地文件系統中。同時還用事務日誌來持久化記錄發生在文件系統元數據存儲中的每一次改動,該日誌保存在NameNode本地文件系統上的EditLog文件中。it

   六、爲了解決單點故障(NameNode down機後HDFS失效),增長了從屬NameNode(secondary NameNode)。

相關文章
相關標籤/搜索