大數據(hadoop-HDFS原理分析)

時間 2019-11-08

原文原文鏈接

HDFS概述

HDFS是什麼？php

源自於Google的GFS論文
    發表於2003年10月
      HDFS是GFS克隆版
Hadoop Distributed File System
      易於擴展的分佈式文件系統
      運行在大量普通廉價機器上，提供容錯機制
    爲大量用戶提供性能不錯的文件存取服務java

HDFS的優勢：node

高容錯性
數據自動保存多個副本
副本丟失後自動恢復
適合批處理
移動計算而非數據
數據位置暴露給計算框架
適合大數據處理
GB、TB、甚至PB級數據
百萬規模以上的文件數量
10K+節點規模
流式文件訪問
一次性寫入，屢次讀取
保證數據一致性
可構建在廉價機器上
經過多副本提升可靠性
提供了容錯和恢復機制apache

HDFS的缺點：編程

低延遲數據訪問
好比毫秒級
低延遲與高吞吐率
小文件存取
佔用NameNode大量內存
尋道時間超過讀取時間
併發寫入、文件隨機修改
一個文件只能有一個寫者
僅支持append架構

分佈式文件系統的一種實現方式：併發

HDFS設計思想：app

HDFS架構：框架

HDFS數據塊（block）：分佈式

文件被切分紅固定大小的數據塊
默認數據塊大小爲128MB，可配置
若文件大小不到128MB，則單獨存成一個block
爲什麼數據塊如此之大
數據傳輸時間超過尋道時間(高吞吐率)
一個文件存儲方式
按大小被切分紅若干個block，存儲到不一樣節點上
默認狀況下每一個block有三個副本

HDFS寫流程：

HDFS讀流程：

HDFS典型物理拓撲：

每一個機架一般有16-64個節點

HDFS副本放置策略：

一個文件劃分紅多個block，每一個block存多份，如何爲每一個block選擇節點存儲這幾份數據？

Block副本放置策略：
副本1：同Client的節點上
副本2：不一樣機架中的節點上
副本3：與第二個副本同一機架的另外一個節點上
其餘副本：隨機挑選

HDFS可靠性策略：

文件完整性
---CRC32校驗
---用其餘副本取代損壞文件
Heartbeat
---Datanode按期向Namenode發heartbeat
元數據信息
---FSImage（文件系統鏡像）、Editlog（操做日誌）
---多份存儲
---主備NameNode實時切換

HDFS不適合存儲小文件：

元信息存儲在NameNode內存中
一個節點的內存是有限的
存取大量小文件消耗大量的尋道時間
類比拷貝大量小文件與拷貝同等大小的一個大文件
NameNode存儲block數目是有限的
一個block元信息消耗大約150byte內存
存儲一億個block，大約須要20GB內存
若是一個文件大小爲10K，則一億個文件大小僅爲1TB（但要消耗掉NameNode20GB內存）

HDFS訪問方式：

HDFS Shell命令

HDFS Java API

HDFS Fuse：實現了fuse協議

HDFS lib hdfs：C/C++訪問接口

HDFS其餘語言編程API
使用thrift實現
支持C++、Python、php、C#等語言

HDFS Shell命令一律覽：

hadoop fs 命令一文件操做命令：

HADOOP Shell命令一文件操做命令：

將本地文件上傳到HDFS上

bin/hadoop fs –copyFromLocal /local/data /hdfs/data

刪除文件/目錄

bin/hadoop fs –rm /hdfs/data

建立目錄

bin/hadoop fs –mkdir /hdfs/data

HDFS Shell命令一管理命令：

HDFS Shell命令一管理腳本

HDFS Shell命令一文件管理命令fsck

檢查hdfs中文件的健康情況
查找缺失的塊以及過少或過多副本的塊
查看一個文件的全部數據塊位置
刪除損壞的數據塊

HDFS Shell命令一文件管理命令fsck

HDFS Shell命令一數據均衡器balancer

數據塊重分佈
bin/start-balancer.sh-threshold <percentage of disk capacity>
percentage of disk capacity
HDFS達到平衡狀態的磁盤使用率誤差值
值越低各節點越平衡，但消耗時間也更長

HDFS Java API介紹

configuration類：
    該類的對象封裝了配置信息，這些配置信息來自core-*.xml
FileSystem類：
    文件系統類，可以使用該類的方法對文件/目錄進行操做。通常經過FileSystem的靜態方法get得到一個文件系統對象
FSDataInputStream和FSDataOutputStream類：
    HDFS中的輸入輸出流。分別經過FileSystem的Open方法和create方法得到

以上類均來自java包：org.apache.hadoop.fs

HDFS Java程序舉例

將本地文件拷貝到HDFS上
Configution config=new Configution();
FileSystem hdfs = FileSystem.get(config);
Path srcPath = new Path(srcFile);
Path dstPath = new Path(dstFile);
hdfs.copyFromLocalFile(srcPath, dstPath);

HDFS 多語言API一藉助thrift