WSFC備份恢復

任何一項IT系統都須要備份恢復的機制,WSFC也不例外,對於WSFC,咱們主要須要關注三塊內容
數據庫


  1. 羣集CNO VCO的備份恢復windows

  2. 羣集數據磁盤,CSV內容的備份恢復服務器

  3. 羣集數據庫的備份恢復網絡


羣集 CNO VCO的備份恢復,其實就是活動目錄數據的備份恢復了,正常狀況下,2008R2以後開啓活動目錄回收站功能,即使計算機誤刪除,也能夠恢復出來,以後再在羣集管理器修復名稱便可,這在前面文章已經講過,2012開始能夠直接經過AD管理中心恢復。且咱們能夠經過防刪,備份等方案規避,CNO,VCO一旦誤刪,會致使羣集沒法訪問,沒法進行羣集身份驗證app


羣集數據磁盤,CSV內容,這點咱們能夠經過DPM,或是其它工具,例如,咱們若是在羣集CSV上面跑了不少虛擬機,那麼是須要按期對羣集上面的虛擬機作備份的,這時候若是備份工具支援,咱們能夠從CSV級別去備份上面全部的虛擬機內容,防止羣集共享數據丟失ide


羣集數據庫的備份恢復,咱們今天主要將涉及這個方面,以前,咱們說過,羣集數據庫是羣集配置運行的核心,它儲存着WSFC羣集全部的配置狀況,會實時的在各個節點之間及見證磁盤同步,一旦發生故障轉移,節點會參照羣集數據庫進行故障回覆
工具


羣集數據庫儲存在節點註冊表及見證磁盤,咱們備份時,使用windows server backup,DPM備份系統狀態,便可備份羣集數據庫,羣集數據庫儲存在系統狀態中。優化


羣集數據庫的備份恢復主要分爲兩種,一種是受權模式恢復,一種是非受權模式恢復,頗有意思,有點像AD的數據庫恢復同樣ui


受權模式恢復spa


什麼場景下會使用到受權模式恢復,例如,以前羣集運行最正常的狀況下,你執行了一次備份,突然有一天由於不當心操做,弄壞了一些羣集配置,整個羣集開始不正常工做,這時候,您可使用受權恢復,選擇與一個節點進行恢復,在該節點上執行受權恢復,首先中止羣集服務,恢復羣集數據庫配置,再啓動羣集節點,請注意,實質上這裏,執行受權恢復的時候,全部羣集節點的羣集服務都會被中止!受權恢復後只要被恢復節點會優先啓動,由於受權恢復,要把羣集數據庫配置回滾到以前的paxos標記,回滾以後須要將被受權恢復節點的羣集數據庫提高爲黃金副本,以後,再手動啓動其它羣集節點的羣集服務,其它羣集節點會從擁有黃金副本的節點同步羣集數據庫配置,羣集恢復正常。


能夠看到,受權模式恢復的關鍵點在於 


1.機器能夠不關機在線恢復 ,恢復後不須要重啓 

2.WSFC和Windows Server backup感知,執行羣集受權模式恢復


基本上受權模式恢復的場景很明確,回滾羣集配置,並提高回滾節點羣集數據庫爲黃金副本。


這裏須要注意的一點是,因爲羣集數據庫的paxos標記會實時變化,所以,執行羣集數據庫受權恢復時,必定必定不要一塊兒啓動全部羣集節點的羣集服務,一旦你不當心在其它節點改了配置,此次羣集受權恢復就失敗了,由於被修改節點的paxos標記爲最新,恢復節點仍是會去和它同步羣集數據庫



非受權恢復呢


相信你們已經猜到了,非受權恢復,和受權恢復相似,可是並不會有提高羣集節點數據庫爲黃金副本這個過程


非受權恢復和受權恢復最大的不一樣是非受權恢復須要重啓機器來完成,且恢復時間會較長


實質上當咱們執行非受權恢復時,是至關於對於節點執行一個完整的裸機恢復


非受權恢復,老王認爲主要適用於如下兩種場景


  1. 單個羣集節點出現問題,常常藍屏崩潰,不穩定,如今不想繼續用了,但願重裝,這時候能夠直接格式化節點,插入系統光盤,裸機恢復節點,裸機恢復後,羣集節點數據庫paxos標記爲舊的標記,並不會提高爲黃金副本,被非受權恢復的單個節點,會和其它擁有最新paxos標記的羣集節點同步數據庫。

  2. 整個羣集出現問題,羣集出現問題,任何一個節點都不能用了,但以前有裸機備份,這時候能夠直接新裝一臺機器,插入系統光盤,裸機恢復到該節點,讓羣集先單點復活,以後等待有資源準備就緒後再加入到羣集。


總結一下


受權恢復主要是用於恢復羣集配置,並同步到其它全部節點

非受權恢復主要用於恢復節點或羣集能夠正常使用,被恢復的節點將會和其它可用節點同步羣集數據庫


目前老王來看可以支持微軟羣集數據庫受權恢復的只有Windows Server backup,DPM,其中主要以Windows Server backup爲主,Windows Server backup能夠看到羣集執行受權恢復的過程


對於非受權恢復,無非是裸機備份,裸機恢復,maybe除了微軟的Windows Server backup,DPM,一些其它第三方的備份工具也可使用


另外老王建議,備份羣集數據庫配置和備份羣集數據分開執行,備份羣集數據庫就只是備份羣集數據庫配置,恢復時候我也只恢復羣集數據庫相關的內容,對於羣集數據磁盤和CSV內容,建議單獨執行備份,不要和羣集數據庫的備份恢復放在一塊兒。


接下來咱們分別實戰羣集數據庫受權恢復和非受權恢復


受權恢復,場景介紹


DC01&iscsi      

lan:10.0.0.2 255.0.0.0

iscsi:30.0.0.2 255.0.0.0


HV01

MGMET:10.0.0.9 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.9 255.0.0.0

CLUS:18.0.0.9 255.0.0.0


HV02

MGMET:10.0.0.10 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.10 255.0.0.0

CLUS:18.0.0.10 255.0.0.0


當前羣集正常運行,羣集名稱fscluster,羣集文件服務應用fileshare

261fa85784a1242a1ab83fb4ed49f3eb.png

當前羣集正常運行,咱們已經執行過一次裸機備份

a1b7631405c0e5238e6916c0ff64e1d0.png

受權恢復操做流程以下


  1. 檢索確認備份信息

  2. 經過wbadmin命令執行羣集信息恢復

  3. wbadmin和wsfc整合,中止全部節點羣集服務

  4. 恢復羣集數據庫爲以前備份

  5. 啓動被恢復節點羣集服務,提高羣集數據庫爲黃金副本

  6. 手動啓動其它羣集節點羣集服務


破壞羣集,刪除文件服務器內容

a8f5d9fe80c7e76bfe51ece6f792b3e8.png

1.檢查羣集節點備份記錄

wbadmin get versions

a1149939bc1a4b2165a8eab408fce886.png

檢查備份詳細信息

wbadmin get items -version:10/24/2017-02:17

b25229535e54c8d908ba83915c9643de.png

能夠看到,雖然咱們只是備份了裸機,可是windows server backup,感知到咱們有羣集,自動幫助咱們備份羣集,在2003時代只保存在系統狀態,2008時×××始已經單獨獨立成應用程序!


2.在線經過wbadmin執行羣集數據庫受權恢復

wbadmin start recovery -itemtype:app -items:cluster -version:10/24/2017-02:17


正如咱們所講

99d4bf59eec0a265530bd51c11c9931e.png

準備好了輸入Y,羣集開始執行中止羣集節點羣集服務 - 恢復數據庫 - 從新啓動恢復節點羣集服務

1880ff54cf2cd25aef98915092549c10.png

恢復完成後提示以下

362434074b621b049ba139b85d7c7150.png

能夠看到,備份恢復過程,首先會中止全部節點羣集服務,以後會先啓動被恢復節點的羣集服務,以提高爲黃金副本

e275e2fa72e8696cd2eedbb7891508d3.png


8299f70bf5f598a52ffcf2f170a1653d.png


手動啓動HV02節點羣集服務

efc949baf59ce06919613cec415b3276.png


51393c44434f4775bd8d5ad66da4587c.png

羣集配置恢復如初,受權恢復完成

0c3ebc33d89f195206d26b8d5415838e.png

查看clusterlog 受權恢復過程

b86651e45b60ac9bda84e76cc93005da.png


開始執行羣集數據庫還原 


1f08f941d8879aa76ab94e604858d86d.png


恢復paxos標記,提高paxos標記爲黃金副本


d056e35da815c795d43a6c4ec552ee3c.png


715823f30f78a1712e7893ef72339c0d.png


羣集恢復過程中止羣集全部節點羣集服務,但會稍後會自動啓動被恢復節點,並提高paxos標記爲最優,其它節點再加入時,必需要求與被恢復節點同步羣集數據庫內容,才能夠正常加入羣集


89e77b81828c3b69ab5011845f334dd7.png


a1f4dac119472424fea9d292cc6d00f5.png


接下來咱們再執行非受權恢復


環境同受權恢復同樣,這裏咱們模擬羣集徹底崩潰,兩個節點都不能使用,咱們新建一個配置徹底相同的HV03,以後把羣集內容恢復到該節點


因爲咱們會經過網絡進行恢復,所以須要HV03這個新節點能夠接入網絡,以訪問備份文件夾,可臨時架設個DHCP服務器


當前HV01 HV02節點已關機,沒法再開機


d942503a44ab53dbc00a7dd92f4becfa.png

按照一樣配置新建HV03虛擬機,插入2016光盤,選擇修復計算機

d0895ac5b15ecd4685610dbda6247a11.png

疑難解答

5dfd2c8d06af103311111ed11fe73064.png

系統映像恢復

22a5fbe9bdf8aaa60e577f3a7ae06a54.png

進去以後,若是你的新機器正常加入到了環境,正常聯繫到DHCP獲取到地址,這裏能夠經過輸入網絡路徑,憑據,訪問到備份共享文件夾。

40f428372fc73fc1a596cc96d187c24c.png

國際慣例,下一步下一步

48b6fc72960d21faff2fce2c0e8183cd.png


7c26dea11615ce6f1d690c0de5474c9e.png

如採用新硬件服務器,此處需載入驅動程序

2fcee7376e478f558a642119b2ce319e.png


e195e7662665e450705c0389c97cb54c.png

泡杯茶等着好了

b3345734c2a3630d59562e004e427568.png

恢復完成後重啓,進入開機界面

39af339406cd991011ad8102a41bfc04.png

羣集節點網卡已經恢復到HV01的的狀態,一些時候會出現部分網卡未正常恢復,如發現未正常恢復,從新輸入便可。

b15df10337bbb87aa09de6d8e4b9079a.png

存儲獲得正常鏈接,在2008R2時代,若是執行非受權恢復,一些時候會遇見存儲要從新鏈接的狀況,2012,2016這獲得了優化,大部分狀況下存儲狀態都會保持正常

f75cc5cb0e6f53806245ebcb0f174b1a.png

打開羣集管理器發現羣集也已經正常恢復,當前只有新HV01節點可用

1308bc840d3892f6d4ef35dd3ca1e26f.png


fcb5ab518a04d8048762f0ebba20158a.png

稍後能夠再重作其它節點添加進來


至此咱們完成了在羣集徹底崩潰的狀況下,利用已有的裸機備份從新恢復起羣集。

除了咱們這種形式的恢復

還有一種非受權恢復場景

即當前節點存活,那麼我就能夠在存活節點上面經過執行命令

wbadmin start systemstaterecovery -version:

來恢復單個崩潰節點,該恢復過程只是系統狀態恢復,並不會執行數據庫副本paxos標記提高操做,執行完成後重啓,節點會和其它現有節點同步最新的羣集數據庫內容。


之因此老王選擇演示羣集徹底崩潰的場景

是由於老王以爲這種場景下非受權恢復才發揮出最重要的意義

若是說由於一個節點的崩潰,而花力氣去執行非受權恢復,我不如直接新build一個節點加入羣集


對於羣集的備份恢復


老王建議是一體化來作


  1. 開啓活動目錄回收站功能,CNO/VCO誤刪後,活動目錄恢復,羣集修復,若是羣集全部信息都被刪除,應最優先恢復CNO/VCO

  2. 針對羣集節點執行裸機備份,用於非受權恢復崩潰的的節點/羣集,受權恢復羣集數據庫配置。

  3. 針對羣集數據磁盤,CSV,選擇能和羣集感知的備份工具進行備份恢復,若是羣集全部信息都被刪除,應先恢復CNO/VCO,羣集數據庫配置,最後恢復羣集數據磁盤。

相關文章
相關標籤/搜索