新手入門大數據 Hadoop基礎與電商行爲日誌分析（三）

時間 2019-12-06

原文原文鏈接

HDFS：
1.分佈式
2.commdity hardware 通用硬件上面
3.高容錯
4.high throughput 高吞吐
5.large data set
普通文件系統 VS 分佈式的文件系統
單機橫跨N個機器
前提和設計目標：
hardware failure硬件錯誤
崩潰後的快速恢復
Streaming Data Access HDFS更適合批處理，對延遲的要求不高
關注的是吞吐量，而不是低延遲
Large Data Set 大規模數據集
Moving Computation is cheaper than moving data移動計算比移動數據更划算node

HDFS架構
1）Namenode（master）和Datanodes（slave）
2)master和slave 主從關係架構