HDFS:
1.分佈式
2.commdity hardware 通用硬件上面
3.高容錯
4.high throughput 高吞吐
5.large data set
普通文件系統 VS 分佈式的文件系統
單機 橫跨N個機器
前提和設計目標:
hardware failure硬件錯誤
崩潰後的快速恢復
Streaming Data Access HDFS更適合批處理,對延遲的要求不高
關注的是吞吐量,而不是低延遲
Large Data Set 大規模數據集
Moving Computation is cheaper than moving data移動計算比移動數據更划算node
HDFS架構
1)Namenode(master)和Datanodes(slave)
2)master和slave 主從關係架構