HDFS是幹啥的

一、HDFS是啥?node

HDFS(Hadoop Distributed File System,Hadoop分佈式文件系統),它是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,適合那些有着超大數據集(large data set)的應用程序。分佈式

二、HDFS特色是個啥?oop

一、大數據文件,能夠存儲大數據文件,小的話用不着,單機就能夠了,殺雞焉用牛刀。理論上若是管理節點的內存足夠的話,無上限,可是畢竟硬件條件有限。若是一個block 128M,每一個block須要4kb的管理信息  namenode內存有8G 那麼8G/4kb*128就是她這個集羣的上限。大數據

二、文件分塊存儲,HDFS會將一個完整的大文件平均分塊存儲到不一樣計算器上,塊的大小64M,128M, 256M均可以(看狀況),它的意義在於讀取文件時能夠同時從多個主機取不一樣區塊的文件,多主機讀取比單主機讀取效率要高得多得都。內存

三、流式數據訪問,一次寫入屢次讀寫,這種模式跟傳統文件不一樣,它不支持動態改變文件內容,而是要求讓文件一次寫入就不作變化,要變化也只能在文件末添加內容。部署

四、廉價硬件,HDFS能夠應用在普通PC機上,這種機制可以讓給一些公司用幾十臺廉價的計算機就能夠撐起一個大數據集羣。效率

五、硬件故障,HDFS認爲全部計算機均可能會出問題,爲了防止某個主機失效讀取不到該主機的塊文件,它將同一個文件塊副本分配到其它某幾個主機上,若是其中一臺主機失效,能夠迅速找另外一塊副本取文件。因此通常block備份三份,namenode 備份一份。集羣

三、總結硬件

    HDFS就是一個將大數據量的文件分割成成大小相等的block中,這個block通常爲 62M,128M等,並存儲到集羣中,能夠一次存儲,屢次讀取,不易修改,不適合作交互,時效性低程序

相關文章
相關標籤/搜索