Hadoop節點遷移

時間 2019-11-20

標籤 hadoop 節點遷移欄目 Hadoop 简体版

原文原文鏈接

增刪節點數據遷移

1、全部事情開始以前，先要備份好cloudera manager的數據庫，以及hadoop集羣中的一些組件帶的數據庫。這裏保存了不少元數據，像hive這種丟了很麻煩的。

2、若是須要換nameNode的存儲目錄

一、備份nameNode原始數據

cp -r /ddhome/dfs/nn /ddhomebak/

#Hive Metastore NameNodes #未找到該命令（刷新hive的hdfs設置）

重啓後，若是有數據問題，則會hdfs會進入安全模式。能夠使用下面這個命令接觸。

實際過程當中還報了一個：不能寫入temp/.XXX目錄的一個錯誤。實際就是安全模式沒法寫入。

sudo -uhdfs hdfs dfsadmin -safemode leave

切換數據存儲目錄須要手動把數據文件複製過去

cp -r /ddhome/dfs/ /home/hdfs/

cp -r /ddhome/dfs/dn /home/hdfs/dfs

cp -r /ddhome/dfs/dn /ddhome/dfs_bak

3、數據整理（根據須要進行）

一、先把數據備份成三分

hadoop dfs -setrep -w 3 -R /

2數據均衡

https://bbs.aliyun.com/detail/335179.html?page=e

1.對hdfs負載設置均衡，由於默認的數據傳輸帶寬比較低，能夠設置爲64M，

hdfs dfsadmin -setBalancerBandwidth 67108864

2.默認balancer的threshold爲10%，即各個節點存儲使用率誤差不超過10%，咱們可將其設置爲5%;而後啓動Balancer,sbin/start-balancer.sh -threshold 5，等待集羣自均衡完成便可

#./start-balancer.sh -threshold 5

hdfs balancer -threshold 1 #這個是機器資源使用率的差額，若是設置過小，可能不會遷移

#詳細使用請參照下面這篇博客

HDFS的Block數據balancer重分佈實戰 - CSDN博客

=============================================================================

4、hadoop組件遷移：

一、能夠有多個主節點的主鍵，能夠先添加好備用的主鍵節點。而後重啓，等備用節點徹底同步了主節點以後，就能夠中止老的主幾點了。會自動切換到新的主節點上。這個時候就能夠刪除老的主節點了。

zk、hbase、hdfs、yarn、hive（ Hive Metastore Server和 HiveServer2均可以）。

二、一些機器不相關的組件，能夠直接刪除了，加入新機器以後，直接在新的節點上從新裝這部分組件。

典型的有yarn、spark on yarn、hue、

3 比較難遷移的就是hdfs。由於它涉及到真正的數據存儲在哪一個位置。

須要一個節點一個節點的：中止---數據同步到其餘節點----刪除這節點。

這裏要注意：nameNode角色遷移，刪除老節點以後，整個hdfs就鎖死不能進行操做了。由於刪除該節點以後，hdfs沒有自動進行配置修改，它任然是高可用模式，你作什麼操做它都提示錯誤不能進行。須要手動到hdfs的配置裏面把高可用相關的配置所有去除掉。而後從新添加新節點上的nameNode。能夠在這個時候直接進行高可用部署方式。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。