生產事故（MongoDB數據分佈不均解決方案）

時間 2019-12-08

原文原文鏈接

事故集合：node

能夠很明顯能夠看到咱們這個集合的數據嚴重分佈不均勻。mongodb

一共有8個分片，面對這個狀況我首先想到的是手動拆分數據塊，但這不是解決此問題的根本辦法。json

形成這次生產事故的首要緣由就是片鍵選擇上的問題，因爲片鍵選擇失誤，在數據量級不大的時候數據看起來仍是很健康的，但隨着數據量的暴漲，問題就慢慢浮出了水面，咱們使用的組合片鍵並非無規律的，片鍵內容是線性增加的，這就致使了數據的不正常彙集。因爲數據分佈不均勻，咱們有兩個分片的磁盤使用率接近80%，數據還在持續增加，這個問題必須儘快解決。

涉及到這次事故的集合一共有三個，總數據量加起來接近30T，數據總量300億左右。服務器

下面是我解決此問題的解決方案：工具

方案一：性能

第一步：建立一個新的分片表，片鍵我選擇_id作hashed分片，並提早分好了數據塊，下降在恢復期間頻繁切割數據形成的服務器壓力。ui

sh.shardCollection("loan_his.collection",{_id:"hashed"},false,{numInitialChunks:1024})

第二步：單獨鏈接各個分片將8個分片的數據全量備份：線程

nohup mongodump -u loan_his -p loan_his --authenticationDatabase loan_his  -h ${replset} --db loan_his --collection ${collectionName} --query '{"txdt": { $lte: "2019-07-09"} }' -o ${bak_dir} &>>  ${log} &

你可能會問爲何不鏈接mongos,由於我在鏈接mongos作數據備份時出現瞭如下異常：rest

2019-07-08T16:10:03.886+0800	Failed: error writing data for collection `loan_his.ods_cus_trad` to disk: error reading collection: operation was interrupted

多是由於集合內的數據壞塊吧，此異常信息是我備份了將近70%的數據後忽然拋出的異常信息。日誌

除了這個緣由，單獨備份各個分片的數據後你可以自由控制恢復數據的時間窗口，不會由於恢復單個數據文件時間較長，突發意外狀況致使恢復中斷從頭再來的窘境。可以根據服務器的狀態避開高峯期來進行數據恢復。

備份期間我發現了有時候備份出來的總文檔數和 db.collection.getShardDistribution() 查看的文檔數不一致，我還覺得是備份期間出了問題，但我刪除當前備份文件後從新備份出來的文檔數仍是和以前同樣。目前不知道是怎麼回事，懷疑是壞的數據塊引起的我問題，備份出來的數據通常會比原數據量多幾萬條數據，有時候會少一些。

第三步：恢復數據：

mongorestore -u loan_his -p loan_his --authenticationDatabase loan_his -h 10.0.156.9:27017 --db loan_his  --collection  ${collectionName_two}  /mongodb/${collectionName}/replset_sh2/loan_his/${collectionName}.bson  &>>  ${log}

在恢復數據前千萬要記得不要建立索引！不然性能極差，速度很是很是慢！在使用mongodump工具有份時，在數據文件的同級目錄下會有一個 XXXXX.metadata.json 索引文件，默認會在數據恢復完畢後執行建立索引的操做。

此處有坑須要注意：由於備份出來的數據是由原表備份出來的，那這個索引文件也是原表的索引，因爲原表我使用的是組合片鍵作的分片，因此在原表內會存在一個由片鍵組成的組合索引，而且不是後臺建立的組合索引！！！這意味着若是你使用此索引文件來給新表建立索引，會形成這個集羣處於阻塞狀態，沒法響應任何操做！！直至索引建立完畢。因此你能夠將這個索引文件備份到其它目錄以做參考，而後將原文件刪除就能夠了，恢復數據時不會有其它的問題。

若是恢復期間出現了意外狀況致使恢復失敗，好比節點宕機什麼的，不須要擔憂，從新執行恢復程序，數據文件不會重複增長，由於備份出來的數據文件包含mongodb自帶的 Objectld對象_id ,導入時，若是已存在此ID,將不會插入數據。注意：在不一樣集合是容許出現相同ID的，因此在使用方案二恢復數據時，新產生的數據不能經過新表A備份出來匯入新表C，須要經過原始數據文件從新導入。

第四步：建立索引：

待全部數據恢復完畢後再建立索引，必定要記得後臺建立！！！"background":true ！！！你也能夠將索引拆分，一個一個的來。若是以爲此操做對業務影響較大，請看本文最後的解決方案。

mongo 10.0.156.2:27017/loan_his -uloan_his -ploan_his -eval 'db.getSiblingDB("loan_his").runCommand({createIndexes: "collection",indexes: [{"v":2,"key":{"_id":1},"name":"_id_","ns":"loan_his.collection"},{"v":2,"key":{"opnode":1.0,"txdt":1.0,"acct":1.0,"crdno":1.0},"name":"opnode_1_txdt_1_acct_1_crdno_1","ns":"loan_his.collection","background":true},{"v":2,"key":{"txdt":1.0,"opnode":1.0,"acct":1.0,"crdno":1.0,"pbknum":1.0},"name":"txdt_1_opnode_1_acct_1_crdno_1_pbknum_1","ns":"loan_his.collection","background":true},{"v":2,"key":{"acct":1.0,"txdt":1.0,"opnode":1.0},"name":"acct_1_txdt_1_opnode_1","ns":"loan_his.collection","background":true},{"v":2,"key":{"crdno":1.0,"txdt":1.0,"opnode":1.0},"name":"crdno_1_txdt_1_opnode_1","ns":"loan_his.collection","background":true},{"v":2,"key":{"pbknum":1.0,"txdt":1.0,"opnode":1.0},"name":"pbknum_1_txdt_1_opnode_1","ns":"loan_his.collection","background":true}]})'

中止失控索引：

一旦你觸發一個索引，簡單的重啓服務並不能解決這個問題，由於MongoDB會繼續重啓前的建索引的工做。若是以前你運行後臺建索引任務，在服務重啓後它會變成前臺運行的任務。在這種狀況下，重啓會讓問題變得更糟糕。MongoDB提供了選項「noIndexBuildRetry」，它會指示MongoDB重啓後再也不繼續沒建完的索引。若是不當心在前臺建立了索引致使集羣不可用，可使用--noIndexBuildRetry 參數重啓各個分片來中止索引的建立過程，只用重啓主節點就能夠了。若是是在後臺建立索引，重啓時記得加上--noIndexBuildRetry，不然重啓後建立索引的線程會從新被喚醒，並由後臺建立變爲前臺建立，致使整個集羣不可用。

mongod -f $CONFIGFILE --noIndexBuildRetry

此方案遷移期間不用通知業務系統作變動，把數據遷移完畢後，通知業務系統將表名變動，弊端就是在你遷移的過程當中數據仍是會持續增加的，問題分片的磁盤容量會愈來愈少。

方案二：

爲了不在遷移期間數據仍在增加，致使數據還沒遷移完畢磁盤就爆滿的狀況，能夠選擇中止往舊錶B內寫入數據，建立一個健康的新表A，新的數據往新表A內寫，具體的查詢方案須要應用系統的配合。而後將舊錶B的數據遷移至新表C中，最終將新表A的數據匯入新表C , 完成數據遷移。這次遷移數據耗時共9個月！！！片鍵必定要慎重選擇，由於咱們使用的MongoDB是3.4.7版本的，不支持修改片鍵，最新版本支持片鍵的修改。

接下來介紹數據量較大時如何構建索引--減小業務最少影響

在數據量較大或請求量較大,直接創建索引對性能有顯著影響時,能夠利用複製集(數據量較大時通常爲線上環境,使用複製集爲必然選擇或者使用分片.)中部分機器宕機不影響複製集工做的特性,繼而創建索引。

(1)首先把 secondary server 中止，再註釋 --replSet 參數，而且更改 MongoDB port 以後從新啓動 MongoDB，這時候 MongoDB 將進入 standalone 模式；

(2).在 standalone 模式下運行命令 ensureIndex 創建索引，使用 foreground 方式運行也能夠，建議使用background方式運行；

(3)創建索引完畢以後關閉 secondary server 按正常方式啓動;

4.根據上述 1~3 的步驟輪流爲 secondary 創建索引，最後把 primary server 臨時轉換爲 secondary server，一樣按 1~3 的方法創建索引，再把其轉換爲 primary server。

日誌內容大體以下：

2019-09-24T18:51:39.003+0800 I -        [conn33]   Index Build: 838416900/876543270 95%
2019-09-24T20:10:08.360+0800 I INDEX    [conn33] 	 done building bottom layer, going to commit
2019-09-24T20:10:26.001+0800 I -        [conn33]   Index: (2/3) BTree Bottom Up Progress: 11684400/876543270 1%
done building bottom layer, going to commit