Distcp 分佈式拷貝

時間 2020-03-09

原文原文鏈接

(1)discp原理node

DistCp（Distributed Copy）是用於大規模集羣內部或者集羣之間的高性能拷貝工具，和在linux上執行cp，scp實現效果是一致的，不一樣的是，cp是將本機的文件和目錄拷貝到本機的其它地方，scp則能夠將A機器的文件或者目錄拷貝到B機器，而Distcp則能夠實現的是A（hdfs）集羣的數據拷貝到B（hdfs）集羣，而分佈式使得數據拷貝時，能夠實現A級羣的DN節點同時向B集羣的DN節點發送數據，突破了單機拷貝的網卡速率限制，拷貝效率更高。linux

同時Distcp它使用Map/Reduce任務實現文件分發，錯誤處理和恢復，以及報告生成。它把文件和目錄的列表做爲map任務的輸入，每一個任務會完成源列表中部分文件的拷貝。（實際上Distcp只用到了map，沒用用到reduce）。bash

(2)使用場景session

1:數據異地災備。
併發

2:機房下線，數據遷移。
app

3:數據準實時同步。
curl

(3)discp優點async

1:支持帶寬限流，可使用bandwidth參數對distcp的每一個map任務限流，同時控制map併發數量便可控制整個拷貝任務的帶寬，防止拷貝任務將帶寬打滿，影響其它業務。
tcp

2:支持overwrite（覆蓋寫），update（增量寫），delete（刪除寫）等多種源和目的校驗的拷貝方式，大量數據的拷貝必然要作到數據拷貝過程當中的校驗，來保證源和目的數據的一致性。分佈式

(4)discp命令

命令格式

hadoop distcp \
-Dmapred.jobtracker.maxtasks.per.job=1800000 \   #任務最大map數（數據分紅多map任務）
-Dmapred.job.max.map.running=4000 \              #最大map併發
-Ddistcp.bandwidth=150000000 \                   #帶寬
-Ddfs.replication=2 \                            #複製因子，兩副本
-Ddistcp.skip.dir=$skipPath \                    #過濾的目錄（不拷貝的目錄）
-Dmapred.map.max.attempts=9 \                    #每一個task最大嘗試次數
-Dmapred.fairscheduler.pool=distcp \             #指定任務運行的pool
-pugp \                                          #保留屬性（用戶，組，權限）
-i \                                             #忽略失敗的task
-skipcrccheck \                                  #忽略CRC校驗（防止源，目標集羣hdfs版本不一致致使任務失敗。）
hdfs://clusterA:9000/AAA/data  \                 #源地址
hdfs://clusterB:9000/BBB/data                    #目標地址

(5)執行輸出

[work@hq distcp]$ hadoop distcp \
-Dmapred.jobtracker.maxtasks.per.job=1800000 \
-Dmapred.job.max.map.running=4000 \
-Ddistcp.bandwidth=150000000 \
-Ddfs.replication=2 \
-Dmapred.map.max.attempts=9 \
-Dmapred.fairscheduler.pool=distcp \
-pugp -i -skipcrccheck \
hdfs://clusterA:9000/AAA/data \
hdfs://clusterB:9000/BBB/data

17/06/03 17:06:38 INFO tools.DistCp: srcPaths=[hdfs://clusterA:9000/AAA/data ]
17/06/03 17:06:38 INFO tools.DistCp: destPath=hdfs://clusterB:9000/BBB/data
17/06/03 17:06:39 INFO tools.DistCp: config no skip dir
17/06/03 17:06:40 INFO tools.DistCp: sourcePathsCount=241
17/06/03 17:06:40 INFO tools.DistCp: filesToCopyCount=240
17/06/03 17:06:40 INFO tools.DistCp: bytesToCopyCount=0.0
17/06/03 17:06:40 INFO tools.DistCp: mapTasks: 1
17/06/03 17:06:40 INFO corona.SessionDriver: My serverSocketPort 36822
17/06/03 17:06:40 INFO corona.SessionDriver: My Address 10.160.115.122:36822
17/06/03 17:06:40 INFO corona.SessionDriver: Connecting to cluster manager at jobtracker:8021
17/06/03 17:06:40 INFO corona.SessionDriver: HeartbeatInterval=15000
17/06/03 17:06:40 INFO corona.SessionDriver: Got session ID job_201706031706_267270
17/06/03 17:06:40 INFO tools.DistCp: targetsize=268435456
17/06/03 17:06:40 INFO tools.DistCp: targetfiles=500
17/06/03 17:06:40 INFO corona.SessionDriver: Started session job_201706031706_267270
17/06/03 17:06:45 INFO mapred.JobClient:  map 0% reduce 0%
17/06/03 17:06:59 INFO mapred.JobClient:  map 3% reduce 0%
17/06/03 17:07:01 INFO mapred.JobClient:  map 5% reduce 0%
17/06/03 17:07:05 INFO mapred.JobClient:  map 6% reduce 0%
.....
17/06/03 17:11:15 INFO mapred.JobClient:  map 97% reduce 0%
17/06/03 17:11:17 INFO mapred.JobClient:  map 100% reduce 0%
17/06/03 17:11:25 INFO corona.SessionDriver: Stopping session driver

(6)主要參數

Hadoop 1版本

distcp [OPTIONS] <srcurl> * <desturl>

選項：

-p [rbugp] 狀態

r：複製數

b：塊大小

u：用戶

g：組

p：權限

t：修改和訪問時間

-p單獨至關於-prbugpt