1、HDFS簡介web
1.HDFS:Hadoop distributed file systemshell
一個分佈式文件系統負載均衡
基於流數據模式訪問和處理超大文件的須要而開發分佈式
適合應用在大規模數據集上oop
2. 優勢性能
處理超大文件設計
能用來存儲管理PB級的數據接口
處理非結構化數據開發
流式的訪問數據集羣
一次寫入、屢次讀寫
運行於廉價的商用機器集羣上
可運行在低廉的商用硬件集羣上
故障時能繼續運行且不讓用戶觀察到明顯的中斷
3. 侷限性
不適合處理低延遲數據訪問
HDFS是爲了處理大型數據集分析任務的,主要是爲了達到高的數據吞吐量而設計的
對於低延遲時的訪問需求,HBASE是更好的選擇
沒法高效存儲大量的小文件
小文件會給Hadoop的擴展性和性能帶來嚴重問題
利用sequencefile、mapfile等方式歸檔小文件
不支持多用戶寫入及任意修改文件
只有一個寫入着,只能執行追加操做
不支持多用戶對同一文件的寫操做,以及在文件任意位置進行修改
4. HDFS特性
高容錯,可擴展性以及可配置性強
跨平臺
shell命令接口
機架感應功能
負載均衡
web界面
5. HDFS目標
檢測和快速恢復硬件故障
故障的檢測和快速自動恢復是HDFS的一個核心目標
流式數據訪問
設計成適合進行批量處理
重視數據吞吐量,而不是數據訪問的反應速度
大規模數據集
支持大文件存儲
一個單一的HDFS實例能支撐數以千萬計的文件
簡化一致性模型
對文件實行一次性寫入,屢次讀取的訪問模式
6. HDFS目標
移動計算代價比移動數據代價低
可移植性
通訊協議
未完待續。。。